中文分词文本关键字提取

最新推荐文章于 2023-05-01 20:32:21 发布

持续努力

最新推荐文章于 2023-05-01 20:32:21 发布

阅读量1.8k

点赞数

分类专栏： Search Engine Tensorflow编程

本文链接：https://blog.csdn.net/wc996789331/article/details/109771863

版权

Tensorflow编程同时被 2 个专栏收录

59 篇文章 0 订阅

订阅专栏

Search Engine

15 篇文章 0 订阅

订阅专栏

NLP领域：

中文分词：Chinese Word Segmentation
文本摘要（文本关键字提取）：https://github.com/AimeeLee77/keyword_extraction
	TF-IDF、
	TextRank、
	Word2Vec词聚类
词性标注
情感分析
文本分类(Text Categorization)是指计算机将一篇文章归于预先给定的某一类或某几类的过程
。。。

中文分词算法

word2vec
Viterbi 解码算法
HMM
基于深度学习：
	bi-LSTM（双向长短时记忆）
	RNN

repo

LAC：baidu
jieba： cppjieba
tensorflow.text：https://github.com/tensorflow/text

Misc

使用TensorFlow实现基于深度学习的中文分词

文本关键字提取概述

一篇文档的关键词等同于最能表达文档主旨的N个词语，即对于文档来说最重要的词，因此，可以将文本关键词抽取问题转化为词语重要性排序问题，选取排名前TopN个词语作为文本关键词。目前，主流的文本关键词抽取方法主要有以下两大类：

（1）基于统计的关键词提取方法
该方法根据统计信息，如词频，来计算得到文档中词语的权重，按权重值排序提取关键词。TF-IDF和TextRank均属于此类方法，其中TF-IDF方法通过计算单文本词频（Term Frequency， TF）和逆文本频率指数（Inverse Document Frequency， IDF）得到词语权重；TextRank方法基于PageRank的思想，通过词语共现窗口构建共现网络，计算词语得分。此类方法简单易行，适用性较强，然而未考虑词序问题。

（2）基于机器学习的关键词提取方法
该方法包括了SVM、朴素贝叶斯等有监督学习方法，以及K-means、层次聚类等无监督学习方法。在此类方法中，模型的好坏取决于特征提取，而深度学习正是特征提取的一种有效方式。由Google推出的Word2Vec词向量模型，是自然语言领域中具有代表性的学习工具。它在训练语言模型的过程中将词典映射到一个更抽象的向量空间中，每一个词语通过高维向量表示，该向量空间中两点之间的距离就对应两个词语的相似程度。

基于以上研究，本文分别采用TF-IDF方法、TextRank方法和Word2Vec词聚类方法，利用Python语言进行开发，实现文本关键词的抽取。

from：https://github.com/AimeeLee77/keyword_extraction