![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
又决定放弃
这个作者很懒,什么都没留下…
展开
-
NLP汉语数据清洗做了什么?
NLPNLP数据清洗 英文可以空格分词,中文不可。中文文本用连续的字序列构成,词和词之间没有天然分隔符,因此中文分词很困难。尤其困难是歧义问题,分词分为两种: 1.基于词典进行分词:(套规则进行分词)优点是简单有效。但是很容易就有搞笑的歧义,且应对流行词汇表现效果不好。。。。 2.基于统计的分词:通过人工标注对中文建模,将准备好的语料进行训练,选出不同阶段下每个词的出现概率。。。选出概率最大的情况进行分词。 比较好的解决分词奇异问题,但是却要耗费巨大的性能 获取语料? 1.已经有的语料 2.网上下载的抓.原创 2020-07-19 22:02:11 · 2147 阅读 · 0 评论 -
转载-序列标注三大算法
这篇文章实在是好。 https://www.cnblogs.com/skyme/p/4651331.html转载 2020-04-28 14:07:06 · 334 阅读 · 0 评论