传统的文本表征、词向量、关键词提取技术（one-hot、TFIDF、TextRank、LSA、PLSA、LDA ）。

最新推荐文章于 2024-06-22 09:36:27 发布

浅行learning

最新推荐文章于 2024-06-22 09:36:27 发布

阅读量863

点赞数

分类专栏： nlp

本文链接：https://blog.csdn.net/weixin_42663941/article/details/90814485

版权

nlp 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.TF-TFIDF
TFIDF用来衡量一个词对文档的重要性参数。通过对整个文档集进行TFIDF操作。求出每个文档的TFIDF值。比如整个文档集中有10000个单词，计算每个文档中这10000个单词的TFIDF，将这10000个单词的TFIDF作为特征，使用统计机器学习的算法进行训练，得到模型，并进行预测。
TF衡量单词在一个文本中出现的次数，IDF衡量单词在整个文档集中出现的次数。
在这里插入图片描述
其中w代表单词，Di代表文档。

其中N代表文档集的数量，w单词，Di代表文档

2. TextRank
用来衡量词对文档的重要性，TextRank将某一个词与其前面的N个词、以及后面的N个词均具有图相邻关系（类似于N-gram语法模型）。具体实现：设置一个长度为N的滑动窗口，所有在这个窗口之内的词都视作词结点的相邻结点；则TextRank构建的词图为无向图。
在这里插入图片描述
TextRank用于关键词提取的算法如下：

1)把给定的文本T按照完整句子进行分割，
在这里插入图片描述
2)对于每个句子Si属于T，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词，即
，其中 ti,j 是保留后的候选关键词。

3)构建候选关键词图G = (V,E)，其中V为节点集，由（2）生成的候选关键词组成，然后采用共现关系（co-occurrence）构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，K表示窗口大小，即最多共现K个单词。（考虑到不同词对可能有不同的共现（co-occurrence），TextRank将共现作为无向图边的权值。）
4)根据上面公式，迭代传播各节点的权重，直至收敛。
5)对节点权重进行倒序排序，从而得到最重要的T个单词，作为候选关键词。
6)由5得到最重要的T个单词，在原始文本中进行标记，若形成相邻词组，则组合成多词关键词。
在这里插入图片描述
S(B)应计算为(1-0.85)+0.85*((1/1）*1+(1/1)*1+(1/3)*1+(1/2)*1)。ws初始为1

浅行learning

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
传统的文本表征、词向量、关键词提取技术（one-hot、TFIDF、TextRank、LSA、PLSA、LDA ）。

1.TF-TFIDFTFIDF用来衡量一个词对文档的重要性参数。通过对整个文档集进行TFIDF操作。求出每个文档的TFIDF值。比如整个文档集中有10000个单词，计算每个文档中这10000个单词的TFIDF，将这10000个单词的TFIDF作为特征，使用统计机器学习的算法进行训练，得到模型，并进行预测。TF衡量单词在一个文本中出现的次数，IDF衡量单词在整个文档集中出现的次数。其...
复制链接

扫一扫

专栏目录