![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp
Zhen大虾
这个作者很懒,什么都没留下…
展开
-
分类问题的概率校准
一 背景:对于某个不确定问题,每个人都会给出一个判断即主观概率,事物实际发生的概率是客观概率,概率校准是衡量主观概率与客观概率之间一致程度的方法,如果一个人的主观概率判断经常比客观概率大,则过份自信,相反就是过低自信。朴素贝叶斯是过分自信的分类器,支持向量机是过低自信的分类器,逻辑回归往往能给出较好的概率预测。分类器分类的结果即score,而非probability,是由于分类器给出的概率结果与真实的概率分布差别较大。分类模型得到类别概率结果有2条解决路径:1 直接建立概率分类模型,如使用l原创 2020-06-05 00:15:07 · 1485 阅读 · 0 评论 -
jieba分词
一、分词功能有三种分词模式:cut(self,sentence,cut_all=False,HMM=True)--传入两个参数即可默认模式即精确模式:jieba.cut(sentence)全切模式:jieba.cut(sentence,cut_all=True)搜索引擎模式:jieba.cut_for_research(sentence)---传入一个参数即可注意:待分词的...转载 2019-03-11 21:35:09 · 211 阅读 · 0 评论 -
记一次NLP算法实习生面试-----KO
今天去了XXX教育公司面试nlp算法实习生岗,知道自己很菜,感觉录取机会不大但也是去试了一下,有男朋友陪着整体没什么压力。面试的是一个技术管理岗的人吧,去了问的主要问题是:介绍一下你们专业主要是干什么的 介绍一下你接触的与nlp相关的项目 细节性的问题:预处理的工作、使用的文本格式、用的分类算法、lstm与rnn的区别、遗忘门如何产生参数、tanh、sigmoid、relu的区别及函数...原创 2019-05-10 20:47:41 · 1250 阅读 · 1 评论 -
Bert 代码详细解读——modeling.py
在官方的bert-github上,git clone https://github.com/google-research/bert.git主要的文件内容如下图:主要包括7个主要的python文件,小编要坚持把这7个解读清楚呀!首先解读的是modeling.py文件,是bert实现的核心代码,主要包括2个类和17个函数,如下所示:一、类1.class Bert...原创 2019-08-23 17:30:35 · 4137 阅读 · 1 评论 -
Bert踩坑总结—————分类准确率过低
使用bert进行文本分类,主要踩的坑有:数据格式,看自己写的类中如何提取标签和文本 fine-tuning的配置,除了指定文件路径外,可以调整学习率为万分之一到十万分之一之间 fine-tuning中train.sh看是哪个模型保存了,要在predict.sh中引用 如果运行结果多次不变,就删除eval_output中的模型,重新跑一次数据集一定要Shuffle!!!!这是我调试ber...原创 2019-09-17 08:47:08 · 16999 阅读 · 9 评论 -
Bert 代码详细解读——tokenization.py
参考资料:https://mp.weixin.qq.com/s/hzPQHz9Si01ODdvU3i02ow在tokenization文件里共有3个class和11个函数1.def validate_case_matches_checkpointdef validate_case_matches_checkpoint(do_lower_case, init_checkpoint):...原创 2019-09-18 21:01:49 · 2342 阅读 · 5 评论