![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp
浅行learning
一个有梦想的代码狗。
展开
-
中文分词技术
词:最小的、独立活动的、有意义的语言成分 分词:将句子分成单词 如:句子:南京市长江大桥 分词:南京市/长江/大桥 分词的方法:规则分词、统计分词、混合分词。 规则分词:人工设立词库,进行匹配。 统计分词:用统计机器学习算法去分词 混合分词:规则分词+统计分词 规则分词: 词典,匹配,分词 正向最大匹配(MM): 逆向最大匹配(IMM): 双向最大匹配(BMM) ...原创 2019-06-10 17:11:49 · 231 阅读 · 0 评论 -
传统的文本表征、词向量、关键词提取技术(one-hot、TFIDF、TextRank、LSA、PLSA、LDA )。
1.TF-TFIDF TFIDF用来衡量一个词对文档的重要性参数。通过对整个文档集进行TFIDF操作。求出每个文档的TFIDF值。 比如整个文档集中有10000个单词,计算每个文档中这10000个单词的TFIDF,将这10000个单词的TFIDF作为特征,使用统计机器学习的算法进行训练,得到模型,并进行预测。 TF衡量单词在一个文本中出现的次数,IDF衡量单词在整个文档集中出现的次数。 其...原创 2019-08-11 22:47:48 · 857 阅读 · 0 评论