![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 55
Vicky_xiduoduo
这个作者很懒,什么都没留下…
展开
-
停用词(stop words)+TF-IDF实现
在汉语中,有一类没有实际意义的词语,比如组词“的”,连词“以及”,副词“甚至”,语气词“吧”,被称为停用词。一个句子去掉这些停用词,并不影响理解。TF:词频,TF=某词在某文档中出现的次数 (ps:也有TF=某次在某 文档中出现的次数/该文档的总词量 这种计算,但Sklearn是采用直接计算次数。也就是说,对一个文件集或者语料库而言,包含某个单词的文档越少,IDF的值越大,这个词的区分力越强,就越重要。其中,Nd是训练集文档总数量,df(d,t)是包含某个单词的文档数量, +1的原因是避免分母为0.原创 2023-04-26 21:56:03 · 1718 阅读 · 1 评论 -
N-Gram模型介绍
N-gram介绍原创 2022-11-29 22:23:25 · 1507 阅读 · 0 评论 -
连续词袋模型(Continous bag of words, CBOW)
CBOW简介原创 2022-11-24 16:49:13 · 1245 阅读 · 0 评论 -
医学主题词表(Medical Subject Headings, MeSH)
MeSH简介原创 2022-11-23 11:44:07 · 4643 阅读 · 0 评论 -
机器学习算法——概率图模型(隐马尔可夫模型2)
HMM概率计算问题原创 2022-10-12 16:18:17 · 275 阅读 · 0 评论 -
机器学习算法——概率图模型(隐马尔可夫模型1)
HMM的三大要素和三大假设原创 2022-10-11 11:17:57 · 718 阅读 · 0 评论 -
自然语言处理3——句子相似度
句子相似度表示:欧式距离,余弦相似度、TF_IDF、word2vec原创 2022-09-29 10:31:04 · 781 阅读 · 0 评论 -
自然语言处理2(文本的表示)
讲解文本表示方法,包括离散表示和分布式表示,离散式用One-hot和词袋表示,并进行举例。原创 2022-09-28 16:53:21 · 576 阅读 · 0 评论 -
自然语言处理1(前向+后向 最大匹配分词算法)
前向+后向 最大匹配分词算法原创 2022-09-20 22:10:51 · 639 阅读 · 0 评论