![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp
浅行learning
一个有梦想的代码狗。
展开
-
中文分词技术
词:最小的、独立活动的、有意义的语言成分分词:将句子分成单词如:句子:南京市长江大桥分词:南京市/长江/大桥分词的方法:规则分词、统计分词、混合分词。规则分词:人工设立词库,进行匹配。统计分词:用统计机器学习算法去分词混合分词:规则分词+统计分词规则分词:词典,匹配,分词正向最大匹配(MM):逆向最大匹配(IMM):双向最大匹配(BMM)...原创 2019-06-10 17:11:49 · 232 阅读 · 0 评论 -
传统的文本表征、词向量、关键词提取技术(one-hot、TFIDF、TextRank、LSA、PLSA、LDA )。
1.TF-TFIDFTFIDF用来衡量一个词对文档的重要性参数。通过对整个文档集进行TFIDF操作。求出每个文档的TFIDF值。 比如整个文档集中有10000个单词,计算每个文档中这10000个单词的TFIDF,将这10000个单词的TFIDF作为特征,使用统计机器学习的算法进行训练,得到模型,并进行预测。TF衡量单词在一个文本中出现的次数,IDF衡量单词在整个文档集中出现的次数。其...原创 2019-08-11 22:47:48 · 863 阅读 · 0 评论