自然语言处理
qq_1096260969
这个作者很懒,什么都没留下…
展开
-
python 基于情感词典的情感分析之乐,惧,惊,哀,恶,怒和未知七种情感分析
背景情感分析是通过计算技术对文本内容的主观客观性、情绪等挖掘分析,对文本的情感偏向做出判断。目的是识别出文本中的具体情感分类,之前做文本分类都是通过深度学习或者机器学习进行文本分类,但是需要进行数据标注,对于上述其中情感的分类,有相应的情感词典,想通过情感词典的方式进行七分类情感分析。1.数据准备1.1 情感词典准备中文情感词汇本体库是大连理工大学信息检索研究室在林鸿飞教授的...原创 2020-01-03 21:36:14 · 10475 阅读 · 19 评论 -
python nlp情感分析之极性分析
背景目前做情感分析基本使用机器学习或者深度学习进行情感分析,准确率已经很高了。最近与某高校新闻媒体学院合作进行大数据情感分析,学院老师要求采用情感字典进行情感极性分析,之前做项目情感分析都是采用深度模型做的,这次打算使用情感字典进行情感极性分析,并且以后可以用来收集数据。1.数据准备1.1 情感词典准备话说是基于情感词典的极性分析,当然要有情感字典,可以采用下面的链接直接下载。...原创 2019-12-30 21:36:02 · 7082 阅读 · 4 评论 -
mac wordcloud 字体设置
在使用mac进行词云生成的时候,发现乱码,后来发现需要设置系统的字体才可以font_path="/System/Library/fonts/PingFang.ttc"wc = WordCloud(font_path=font_path).generate(text=text)这样就可以正常生成的词云图片了。...原创 2019-12-26 23:28:59 · 3075 阅读 · 2 评论 -
python 根据三点坐标计算夹角
最近在一些夹角计算的时候,根据三点坐标计算夹角,并封装为方法,方便以后调用。def cal_ang(point_1, point_2, point_3): """ 根据三点坐标计算夹角 :param point_1: 点1坐标 :param point_2: 点2坐标 :param point_3: 点3坐标 :return: 返回任意角的夹角...原创 2019-12-26 23:13:03 · 13708 阅读 · 5 评论 -
Memory Error问题
前段时间用LDA做主题模型的时候,老是报错Memory Error,原来是内存不足,后来将整个模型放到服务器(64G)上训练,发现还是报同样的错误,后来在服务器上检测,发现并没有占满,网上找了许多教程,看着别人的教程做了好久还是不行,看着别人的方法主要是我建了一个矩阵太大了,20万*45万的矩阵。self.z = np.array(np.zeros([self.D, self.V]), ...原创 2019-12-25 21:04:42 · 1865 阅读 · 0 评论 -
微博评论内容过滤
前段时间在过滤微博评论的时候,整理了一下内容的过滤,主要是以下几个方面:html标记 url 标记 去掉@标记与@某人的标记 去掉一些特殊字符 过滤表情(一些表情符号的过滤) 过滤掉\ax0(去掉一些空格标记) 是否转换为小写(为了后期的统一,都转换为小写)# from HTMLParser import HTMLParserfrom html.parser import H...原创 2019-12-24 21:46:22 · 4428 阅读 · 0 评论 -
在nlp任务中训练集与测试集的划分
定义一个方法,可以直接将全部的数据集划分为训练集与测试集def nlp_split(path,size=0.3,sep = '__label__'): from sklearn.model_selection import train_test_split label_list = [] text_list = [] with open(path,'r',...原创 2019-07-03 21:56:22 · 700 阅读 · 0 评论 -
mac下kenlm安装---pycorrector
在安装pycorrector的时候出现了没有kenlm包,然后安装了一下上午最终解决了,记录一下。使用命令对kenlm库进行下载:wget -O - http://kheafield.com/code/kenlm.tar.gz |tar xz 如下所示。根据kenlm官网说明进行编译https://github.com/kpu/kenlm:mkdir -p buildcd ...原创 2019-05-14 16:29:04 · 2105 阅读 · 0 评论 -
深度学习中的对抗损失怎么使用
对前几天的对抗损失总结一下,转载请注明出处,如有不对的地方,欢迎前来指出,一起探讨。1.对抗损失的目的与作用 对抗损失的使用主要是为了减少标注数据,在真实的业务中,对于数据的标注是一件非常头疼的事,为了使用1000条标注能够达到2000条标注数据的所能达到效果(打个比方),模拟真实世界中各种噪声的情况,让模型更加鲁棒,更好用,准确率更高,在图像处理中经常使用引入噪声来增加图像的样本集...原创 2019-03-15 16:18:13 · 9302 阅读 · 0 评论