对财经新闻情感分析python_我用Python进行情感分析,让程序员和女神牵手成功

先用电影评论来做情感分析,主要包括下面几个主要内容(看到最后哦):

1、准备文本数据

2、基于文本文档来构建特征向量

3、训练机器学习模型来区分电影评论的正面评论和负面评论(对你的女神同样适用哦~~)

4、使用外存学习和在线学习算法来处理大数据

在本篇文章中,主要介绍对于电影评论数据的准备工作。

一、情感分析

情感分析也称观点挖掘(opinion mining),是机器学习中自然语言处理(NLP)领域一个非常流行的分支,它主要是分析文档的情感倾向。

二、下载数据

请自行准备一个电影信息(或者直接使用你和女神的聊天信息)

该电影评论是来自IMDb中的电影评论,数据集一共包含了50000个关于电影的正面评论和负面评论,正面评论代表对于影片的评分超过了6颗星,而负面评论则表示评分低于5颗星。50000条评论被分成了四个文件夹train的neg和pos和test的neg和pos,其中每个文件夹中包含了12500个txt电影评论文件,其中pos代表正面评论,neg代表负面评论。所以,我们需要将这50000个txt文件整合成一个表格,表格分为两列,第一列表示评论的内容,第二列表示评论是属于正面(用1表示)还是负面(用0表示)。

三、生成电影评论的表格文件

将50000个txt文件整合成一个表格文件的时候,需要十分钟左右。我们可以通过Python的pyprind库将整个处理过程可视化,同时它还能根据当前计算机的运行状态来估计剩余处理时间,处理完成之后,还能查看消耗的总时间。通过python的数据分析库pandas将电影评论保存成一个csv文件。

1、预计处理总时间

2、统计处理总时间

3、python实现代码

我们还需要知道将文本转换为特征向量前的一些准备工作,主要内容包括:

1、清洗文本数据

2、标记文档

3、词袋模型

一、清洗文本数据

清洗文本需要将文本中所包含的一些不必要的字符删除。

1、删除不必要的字符

print(data["review"][0][-50:])

is seven.

Title (Brazil): Not Available

发现评论中含有一些HTML标记符、标点符号、以及其他的非字母符号。HTML标记符在对于我们对评论做情感分析的时候没有影响,至于标点符号可能会影响句子的语义,为了简化处理我们将标点符号进行删除,保留表情符号(如":)"),因为表情符号对于电影评论情感的分析很有帮助。下面,我们通过python的正则表达式来删除这些不必要的字符。

python的正则表达式提供了一种字符串搜索特定字符串的方便有效方法,正则表达式也要很多的技巧和方法,如果对正则表达式有兴趣的话可以自己去了解一下。在这里我们只是简单的使用一下,所以对正则表达式不会有太过详细的介绍。

2、标记文档

对于英文文档我们可以利用其天然的空格作为单词的分隔符,如果是中文的时候,可以利用一些分词库如jieba分词。在句子中,我们可能会遇见先"runners"、"run"、"running"单词不同的形式,所以我们需要通过词干提取(word

stemming)来提取单词原形。最初的词干提取算法是由Martin F. Porter在1979年提出的,被称为porter

stemming算法。我们可以通过安装python的自然语言工具包NLTK,官网安装链接:http://www.nltk.org/install.html,在NLTK中已经是实现了Porter

Stemming算法,还有实现了比它更高级的Snowball stemmer和Lancaster stemmer与porter

stemming相比,它们更加的提取速度更快。可以通过pip命令进行安装

pip install nltk

3、停用词的移除

停用词大致可以分为两类,一类是功能词,这些功能词非常普遍,与其他的词相比,功能词没有什么实际的含义,比如"the"、"is"、"at"、"which"等。还有一类是词汇词,比如"want"等。停用词对于电影评论的情绪分类没有任何意义,所以我们需要将一些停用词进行删除。通过nltk.download函数获取NLTK提供的停用词,并使用这些停用词来移除电影评论中的停用词。NLTK库提供的停用词,一共有179个,下面给出部分的停用词

我们还需要做什么呢?

1、将单词转换为特征向量

2、TF-IDF计算单词关联度

在之前,我们已经知道一些文本的预处理和分词。这篇文章中,主要介绍如何将单词等分类数据转成为数值格式,以方便我们后面使用机器学习来训练模型。

一、将单词转换为特征向量

词袋模型(bag-of-words model):将文本以数值特征向量的形式来表示。主要通过两个步骤来实现词袋模型:

1、为整个文档集(包含了许多的文档)上的每个单词创建一个唯一的标记。

2、为每个文档构建一个特征向量,主要包含每个单词在文档上的出现次数。

注意:由于每个文档中出现的单词数量只是整个文档集中很少的一部分,因此会有很多的单词没有出现过,就会被标记为0。所以,特征向量中大多数的元素就会为0,就会产生稀疏矩阵。

下面通过sklearn的CountVectorizer来实现一个词袋模型,将文档转换成为特征向量

通过count.vocabulary_我们可以看出每个单词所对应的索引位置,每一个句子都是由一个6维的特征向量所组成。其中,第一列的索引为0,对应单词"and","and"在第一和二条句子中没有出现过,所以为0,在第三条句子中出现过一些,所以为1。特征向量中的值也被称为原始词频(raw

term frequency)简写为tf(t,d),表示在文档d中词汇t的出现次数。

注意:在上面词袋模型中,我们是使用单个的单词来构建词向量,这样的序列被称为1元组(1-gram)或单元组(unigram)模型。除了一元组以外,我们还可以构建n元组(n-gram)。n元组模型中的n取值与特定的应用场景有关,如在反垃圾邮件中,n的值为3或4的n元组可以获得比较好的效果。下面举例说明一下n元组,如在"the weather is sweet"这句话中,1元组:"the"、"weather"、"is"、"sweet"。2元组:"the weather"、"weather is"、"is sweet"。在sklearn中,可以设置CountVecorizer中的ngram_range参数来构建不同的n元组模型,默认ngram_range=(1,1)。sklearn通过CountVecorizer构建2元组

二、TF-IDF计算单词关联度

在使用上面的方法来构建词向量的时候可能会遇到一个问题:一个单词在不同类型的文档中都出现,这种类型的单词其实是不具备文档类型的区分能力。我们通过TF-IDF算法来构建词向量,从而来克服这个问题。

词频-逆文档频率(TF-IDF,term frequency-inverse document frequency):tf-idf可以定义为词频×逆文档频率

其中tf(t,d)表示单词t在文档d中的出现次数,idf(t,d)为逆文档频率,计算公式如下

其中,nd表示文档的总数,df(t,d)表示包含单词t的文档d的数量。分母中加入常数1,是为了防止df(t,d)=0的情况,导致分母为0。取log的目的是保证当df(t,d)很小的时候,不会导致idf(t,d)过大。

通过sklearn的TfidfTransformer和CountVectorizer来计算tf-idf

可以发现"is"(第二列)和"the"(第六列),它们在三个句子中都出现过,它们对于文档的分类所提供的信息并不会很多,所以它们的tf-idf的值相对来说都是比较小的。

注意:sklearn中的TfidfTransformer的TF-IDF的计算与我们上面所定义TF-IDF的公式有所不同,sklearn的TF-IDF计算公式

通常在计算TF-IDF之前,会对原始词频tf(t,d)做归一化处理,TfidfTransformer是直接对tf-idf做归一化。TfidfTransformer默认使用L2归一化,它通过与一个未归一化特征向量L2范数的比值,使得返回向量的长度为1,计算公式如下:

下面通过一个例子来说明sklearn中的TfidfTransformer的tf-idf的计算过程,以上面的第一句话"The sun is shining"为例子

1、计算原始词频

a、单词所对应的下标

b、计算第三句话的原始词频tf(t,d)

c、计算逆文档频率idf(t,d)

注意:其他的词在计算tf-idf都是0,因为原始词频为0,所以就不需要计算idf了,log是以自然数e为底。

d、计算tf-idf

所以,第一个句子的tf-idf特征向量为[0,1,1.29,1.29,0,1,0]

e、tf-idf的L2归一化

在下一篇文章中将介绍如何使用这些句子的特征向量来构建一个模型进行情感分类。虽然在实际演示的是电影影评,但是训练好了可是可以用来处理你的聊天信息的哦~~~

想不想用来测试一下你的女神和你聊天时候的情绪呢?保你牵手成功!!!

另外,小编有自己的学习交流群大家如果想要来学习的话,可以一起来交流:719+139+688,不管你是小白还是大牛,小编都欢迎,而且小编会在群里面不定期分享干货,包括小编自己整理的一份2018年最新学习资料和大神分享直播,欢迎初学和进阶中的小伙伴

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【资源说明】 基于循环神经网络对酒店评论的情感分析python源码.zip基于循环神经网络对酒店评论的情感分析python源码.zip基于循环神经网络对酒店评论的情感分析python源码.zip基于循环神经网络对酒店评论的情感分析python源码.zip基于循环神经网络对酒店评论的情感分析python源码.zip基于循环神经网络对酒店评论的情感分析python源码.zip基于循环神经网络对酒店评论的情感分析python源码.zip基于循环神经网络对酒店评论的情感分析python源码.zip基于循环神经网络对酒店评论的情感分析python源码.zip基于循环神经网络对酒店评论的情感分析python源码.zip基于循环神经网络对酒店评论的情感分析python源码.zip 基于循环神经网络对酒店评论的情感分析python源码.zip 基于循环神经网络对酒店评论的情感分析python源码.zip 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!
Word2Vec是一种自然语言处理的算法,用于将文本数据转换为向量表示。Python语言中,可通过gensim中的Word2Vec模块来实现该算法。 情感分析是一种自然语言处理的技术,其目的是从文本中识别出内容的情感倾向。一般而言,情感分析通常被应用于社交媒体、评论系统、新闻报道等场合,并以文本分类或情感极性计算的形式呈现。 在Python中,可以将Word2Vec算法与情感分析技术结合起来,从而识别出文本中存在的情感类别。具体而言,Word2Vec算法可以按照词汇的相似性将文本分组,进而识别出文本中某些关键词出现的频率。通过对这些关键词进行情感分析,就能够得出文本的情感倾向,并且将这些文本划分到积极、消极等不同的情感类别中。 使用python进行情感分析解析时,需要注意几个关键组件,包括数据预处理、文本向量化、情感分析模型等。在数据预处理阶段,需要对文本数据进行清洗、分词等处理,以适应算法的分析要求。在文本向量化阶段,需要通过Word2Vec模块将文本数据转换成向量表示,便于计算机处理。在情感分析模型的运用中,需要结合具体的算法模型,以实现精准的文本分类和情感分类。 总之,python word2vector_python使用word2vec进行情感分析解析,是一种先进而有效的自然语言处理技术,可为社交媒体、企业品牌管理、舆情监测等领域提供有力支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值