![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 97
Asia-Lee
计算机视觉,自然语言处理,深度学习等
展开
-
NLP中文句子类型判别和分类实现
目录一、中文句子类型主要类别1、陈述句(statement)2、特殊句(special)3、疑问句(question)二、中文句子类型简单分析三、将句法分析与正则结合标注句子类型四、句子类型调研及规则总结五、中文句子类型分类工具sentypes实现一、中文句子类型主要类别1、陈述句(statement)主语为首(subject_front),例:大家对这...原创 2020-12-16 09:04:51 · 15373 阅读 · 12 评论 -
中文句法分析及LTP使用
目录一、中文句法分析内容概述二、基于Python的LTP句法分析1、LTP基础2、pyltp安装3、pyltp实现句法分析三、基于C++的LTP句法分析1、LTP源码和模型2、LTP的C++源码编译及测试3、在Linux下使用动态库生成可执行程序4、 构建基于LTP的句法分析类Parsing5、使用Parsing类实现句法分析四、LTP标注集参考...原创 2019-10-24 08:59:30 · 25149 阅读 · 4 评论 -
NLP词向量和句向量方法总结及实现
目录一、Word2Vec1、Word2Vec介绍2、Gensim实现Word2Vec3、基于Word2Vec的句向量4、基于加权Word2Vec的句向量5、基于Word2Vec的文本向量化实现二、GloVe1、GloVe介绍2、基于源码的GloVe词向量生成(Linux下实现)3、Gensim加载GloVe训练的词向量三、Doc2Vec1、Doc2V...原创 2019-08-29 22:33:02 · 30110 阅读 · 16 评论 -
NLP句子相似性方法总结及实现
目录1、基于Word2Vec的余弦相似度2、TextRank算法中的句子相似性3、莱文斯坦距离(编辑距离)4、莱文斯坦比5、汉明距离6、Jaro距离(Jaro Distance)7、Jaro-Winkler距离(Jaro-WinklerDistance)8、基于Doc2Vec的句子相似度计算1、基于Word2Vec的余弦相似度首先对句子分词,使用Gensi...原创 2019-07-31 22:57:37 · 11016 阅读 · 5 评论 -
NLP关键词提取方法总结及实现
目录一、关键词提取概述二、TF-IDF关键词提取算法及实现三、TextRank关键词提取算法实现四、LDA主题模型关键词提取算法及实现五、Word2Vec词聚类的关键词提取算法及实现六、信息增益关键词提取算法及实现七、互信息关键词提取算法及实现八、卡方检验关键词提取算法及实现九、基于树模型的关键词提取算法及实现十、总结一、关键词提取概述关键词是能够表...原创 2019-07-23 21:09:41 · 95318 阅读 · 4 评论 -
TextRank算法介绍及实现
目录1、PageRank算法2、TextRank算法(1)关键词抽取(keyword extraction)(2)关键短语抽取(keyphrase extration)(3)关键句抽取(sentence extraction)3、TextRank算法实现(1)基于Textrank4zh的TextRank算法实现(2)基于jieba的TextRank算法实现(3)...原创 2019-07-22 21:57:51 · 64433 阅读 · 9 评论 -
NLP数据增强方法总结及实现
目录1、数据增强2、简单数据增强(Easy Data Augmentation,EDA)(1)EDA方法(2)EDA工具使用方法(3)EDA相关工具3、回译4、基于上下文的数据增强方法5、数据增强的作用1、数据增强数据增强是扩充数据样本规模的一种有效地方法,数据的规模越大、质量越高越好,模型才能够有着更好的泛化能力。2、简单数据增强(Easy Data ...原创 2019-07-16 21:19:00 · 13031 阅读 · 1 评论 -
中文自然语言预处理总结
目录中文文本预处理总结1、文本数据准备2、全角与半角的转化3、文本中大写数字转化为小写数字4、文本中大写字母转化为小写字母5、文本中的表情符号去除(只保留中英文和数字)6、去除文本中所有的字符(只保留中文)7、中文文本分词8、繁体中文与简体中文转换9、中文文本停用词过滤10、将清洗后的数据写入CSV文件中文文本预处理总结1、文本数据准备(1)...原创 2019-06-29 22:26:15 · 9676 阅读 · 1 评论 -
NLP常见语言模型总结
目录一、词的离散表示1、One-hot编码(独热编码)2、Bag of Words(BOW,词袋模型)3、N-gram语言模型二、词的分布式表示(Distributed Representation)1、共现矩阵(Co-currence Matrix)2、神经网络语言模型(Neural Network Language Model,NNLM)3、Word2Vec,G...原创 2019-01-19 10:35:19 · 22892 阅读 · 0 评论 -
NLTK使用方法总结
目录1. NLTK安装与功能描述2. NLTK词频统计(Frequency)3. NLTK去除停用词(stopwords)4. NLTK分句和分词(tokenize)5. NLTK词干提取 (Stemming)6. NLTK词形还原(Lemmatization)7.NLTK词性标注(POS Tag)8. NLTK中的wordnetNLTK(natural...原创 2019-01-07 15:06:55 · 30853 阅读 · 6 评论 -
NLP学习路线总结
目录1、自然语言处理概述2、自然语言处理入门基础3、自然语言处理的主要技术范畴4、自然语言处理基本点5、特征处理6、模型选择7、NLP常用工具8、NLP语言模型9、快速入门NLP方法10、自然语言处理学习资料1、自然语言处理概述自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向...原创 2019-01-03 16:56:51 · 39200 阅读 · 13 评论 -
英文自然语言预处理
目录1、数据集准备2、数据集处理(1)简单分词、词性还原、停用词过滤(2)特征提取(TT-IDF、信息增益、卡方检验、互信息、N-Gram等)(3)文本标签向量化(4)选择合适的算法模型进行训练1、数据集准备 测试数据集下载:testdata.xls 停用词过滤表下载:stopwords.txt 2、数据集处理(...原创 2018-09-07 16:28:24 · 4665 阅读 · 4 评论 -
TF-IDF算法介绍及实现
目录1、TF-IDF算法介绍(1)TF是词频(Term Frequency)(2) IDF是逆向文件频率(Inverse Document Frequency)(3)TF-IDF实际上是:TF * IDF2、TF-IDF应用3、Python3实现TF-IDF算法4、NLTK实现TF-IDF算法5、Sklearn实现TF-IDF算法6、Jieba实现TF-IDF算...原创 2018-08-07 19:17:45 · 298725 阅读 · 54 评论