NLP
Chelseady
这个作者很懒,什么都没留下…
展开
-
NLP:Scikit-learn的Feature extraction文本特征提取的两种方式
本文参考来源:https://blog.csdn.net/pipisorry/article/details/419577631.文本特征提取的原理 (1)词袋(Bag of Words)表征 文本分析是机器学习算法的主要应用领域。但是,文本分析的原始数据无法直接丢给算法,这些原始数据是一组符号,因为大多数算法期望的输入是固定长度的数值特征向量而不是不同长度的文本文件。为了解决这个问题,sciki...原创 2019-12-19 14:15:37 · 833 阅读 · 0 评论 -
NLP:用word2vec分析文本相似度
一.中文语料库 中文语料库主要有以下几种: 1. 腾讯AI Lab2018年分享的开源800万中文词的NLP数据集文章https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247506252&idx=4&sn=1f883532975737c9df02212fc2ae1ca5&chksm=e8d06e3edf...原创 2019-12-18 15:25:03 · 5355 阅读 · 7 评论 -
python模块之codecs: 自然语言编码转换
python对多国语言的处理是支持的很好的,它可以处理现在任意编码的字符,这里深入的研究一下python对多种不同语言的处理。 有一点需要清楚的是,当python要做编码转换的时候,会借助于内部的编码,转换过程是这样的: 原有编码 -> 内部编码 -> 目的编码 python的内部是使用unicode来处理的,但是unicode的使用需要考虑的是它的编码...转载 2019-12-18 12:44:10 · 221 阅读 · 0 评论 -
NLP关键词提取:TF/IDF、TextRank、LSI和LDA分析
一.原理部分 1.TF/IDF原理 https://blog.csdn.net/asialee_bird/article/details/81486700 2.TextRank原理 https://blog.csdn.net/qq_41664845/article/details/82869596 3.LSI原理 https://blog.csdn.net/qq_16633405/ar...原创 2019-12-15 15:45:58 · 1558 阅读 · 1 评论 -
NLP:高频词提取
import glob import jieba def get_content(path): with open(path,'r',encoding='gbk',errors='ignore') as f: content='' for l in f: l=l.strip() content+=l ...原创 2019-12-13 14:22:19 · 1352 阅读 · 0 评论