NLP
又决定放弃
这个作者很懒,什么都没留下…
展开
-
NLP汉语数据清洗做了什么?
NLPNLP数据清洗英文可以空格分词,中文不可。中文文本用连续的字序列构成,词和词之间没有天然分隔符,因此中文分词很困难。尤其困难是歧义问题,分词分为两种:1.基于词典进行分词:(套规则进行分词)优点是简单有效。但是很容易就有搞笑的歧义,且应对流行词汇表现效果不好。。。。2.基于统计的分词:通过人工标注对中文建模,将准备好的语料进行训练,选出不同阶段下每个词的出现概率。。。选出概率最大的情况进行分词。 比较好的解决分词奇异问题,但是却要耗费巨大的性能获取语料?1.已经有的语料2.网上下载的抓.原创 2020-07-19 22:02:11 · 2135 阅读 · 0 评论 -
转载-序列标注三大算法
这篇文章实在是好。https://www.cnblogs.com/skyme/p/4651331.html转载 2020-04-28 14:07:06 · 331 阅读 · 0 评论