自然语言处理
pyswt
这个作者很懒,什么都没留下…
展开
-
python自然语言处理-学习笔记(一)之nltk入门
nltk学习第一章一,入门1,nltk包的导入和报的下载import nltknltk.download() (eg: nltk.download(‘punkt’),也可以指定下载那个包)2,book图书集,是一些数据,from nltk.book import **** Introductory Examples for the NLTK Book ***Loadin...原创 2019-01-17 16:33:34 · 1067 阅读 · 0 评论 -
python自然语言处理-学习笔记(三)之文本相似度计算
'''文本相似度计算方法'''#1,编辑距离计算'''是指两个字符串之间,由一个转成另一个所需的最少操作次数,如果它们就 距离越大,说明它们越不同,预科的编辑操作包括将一个字符替换成另一个字符,插入一个字符删除一个字符'''import distanceprint(distance.levenshtein('setting','string')) #2#第一步在s和t之...原创 2019-01-24 14:47:16 · 2222 阅读 · 0 评论 -
python自然语言处理-学习笔记(二)之nltk包常用的功能
1,语料库的获取>>>import nltk>>>nltk.corpus.gutenberg.fileids()['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt', 'blake-poems.txt', 'bryant-stories.txt...原创 2019-01-21 17:29:37 · 755 阅读 · 0 评论 -
jieba模块的主要功能
import jiebaimport jieba.analyseimport jieba.posseg as pseg#jieba的主要功能#1,分词text = '''1月17日,上虞区委书记陶关锋在全区机构改革动员大会上宣布,国家级杭州湾上虞经济技术开发区和省级上虞经济开发区两大开发区正式整合。开发区将更加聚焦规划、建设、招商等“头部”职能,全力打造“万亩千亿”产业大平台。这是一项...原创 2019-01-22 17:58:21 · 2365 阅读 · 0 评论 -
python自然语言处理之情感分析--snownlp包的使用
再此之前我一直在寻找情感分析的博客,也看到了有多种情感分析的方法,有用机器学习算法来学习,不过这种方法需要自己标注一些训练数据,这个工作量是很大的,我也研究过nltk包的使用,但研究了半天始终是有关英文的自然语言处理,对于中文来说有些方法不适用,偶然看到snownlp包,专为中文自然语言处理写的工具,就拿来研究了一番,下面就把他的一些功能记录一下,有什么新的功能或是错误的地方请指点,谢谢。fro...原创 2019-02-25 17:21:06 · 6468 阅读 · 4 评论 -
利用eda函数对文本数据进行增强
近期接手一个项目,时关于深度学习文本分类,我用的是keras深度学习框架LSTM模型,学习前首先得对数据进行处理,由于文本类别比较多有96类,并且有部分类别数据量比较少,这将会影响算法的拟合,我首先想到的是过采样的方法,但是过采样对文本数据无用,所以得先进行词向量的转换,转换完之后我发现准确率还是上不去,后来看了一下word2vec原理,是按照输入的文本数据进行分词统计,在计算词向量,所以这样利用...原创 2019-06-27 18:11:28 · 2728 阅读 · 7 评论