NLP
文章平均质量分 91
嘀嗒嘀嘀嗒嘀
别低头,王冠会掉
展开
-
tokenization方法总结
文章目录基于字粒度和词粒度的BERT,效果哪个好词粒度字粒度Subword粒度-Transformer如何获得un-friend-ly而不是unfr-ien-dlyBPE(Byte Pair Encoding)基于字粒度和词粒度的BERT,效果哪个好词粒度常用一些工具来完成,例如英文的NLTK、SpaCy,中文的jieba、LTP等。英文: live in New York ------> live / in / New York /中文: 在纽约生活 -----> 在 / 纽约 /转载 2021-02-19 14:59:53 · 985 阅读 · 0 评论 -
中文分词模型-pkuseg-jieba-thulac对比
下载了4个模型,官网也有其他的模型可参考。看下模型结果对比:import pkusegs = "小米粒儿"seg = pkuseg.pkuseg(model_name='./web')text = seg.cut(s)print(text)'''['小米', '粒儿']'''import pkusegs = "小米粒儿"seg = pkuseg.pkuseg(model_na...原创 2019-12-06 14:03:19 · 1721 阅读 · 0 评论 -
条件随机场入门
条件随机场更多应用是用在文本语言标注为简单起见,本文中我们仅考虑线性链CRF。入门实例:照片打标签照片中显示6点拍摄,画面黑暗,可以给它打上睡觉的标签,如果有车,那就打上开车的标签。就这么训练分类器,但是可行吗?实际上,我们忽略了这些照片的时间顺序的问题,假如小明有一个闭嘴的照片,怎么分类呢?难以直接判断,需要参考前一个动作,如果之前的照片显示在吃饭,那么这可能在咀嚼食物准备下咽,如果之...转载 2019-03-01 13:48:28 · 193 阅读 · 0 评论 -
自然语言处理中文和英文的区别
https://easyai.tech/ai-definition/tokenization/首先声明,本人NLP小白,面试中国移动在线的时候,被问到如何分词的,我脱口而出说,是“英文”的比赛,等于说不需要分词。然后面试官接着说,你说的没错,英文没必要分词。回来一Google,发现我错了!...转载 2019-09-29 21:44:50 · 1180 阅读 · 0 评论