NLP领域:
中文分词:Chinese Word Segmentation
文本摘要(文本关键字提取):https://github.com/AimeeLee77/keyword_extraction
TF-IDF、
TextRank、
Word2Vec词聚类
词性标注
情感分析
文本分类(Text Categorization)是指计算机将一篇文章归于预先给定的某一类或某几类的过程
。。。
中文分词算法
word2vec
Viterbi 解码算法
HMM
基于深度学习:
bi-LSTM(双向长短时记忆)
RNN
repo
LAC:baidu
jieba: cppjieba
tensorflow.text:https://github.com/tensorflow/text
Misc
使用TensorFlow实现基于深度学习的中文分词
文本关键字提取概述
一篇文档的关键词等同于最能表达文档主旨的N个词语,即对于文档来说最重要的词,因此,可以将文本关键词抽取问题转化为词语重要性排序问题,选取排名前TopN个词语作为文本关键词。目前,主流的文本关键词抽取方法主要有以下两大类:
(1)基于统计的关键词提取方法
该方法根据统计信息,如词频,来计算得到文档中词语的权重,按权重值排序提取关键词。TF-IDF和TextRank均属于此类方法,其中TF-IDF方法通过计算单文本词频(Term Frequency, TF)和逆文本频率指数(Inverse Document Frequency, IDF)得到词语权重;TextRank方法基于PageRank的思想,通过词语共现窗口构建共现网络,计算词语得分。此类方法简单易行,适用性较强,然而未考虑词序问题。
(2)基于机器学习的关键词提取方法
该方法包括了SVM、朴素贝叶斯等有监督学习方法,以及K-means、层次聚类等无监督学习方法。在此类方法中,模型的好坏取决于特征提取,而深度学习正是特征提取的一种有效方式。由Google推出的Word2Vec词向量模型,是自然语言领域中具有代表性的学习工具。它在训练语言模型的过程中将词典映射到一个更抽象的向量空间中,每一个词语通过高维向量表示,该向量空间中两点之间的距离就对应两个词语的相似程度。
基于以上研究,本文分别采用TF-IDF方法、TextRank方法和Word2Vec词聚类方法,利用Python语言进行开发,实现文本关键词的抽取。
from:https://github.com/AimeeLee77/keyword_extraction