情感计算 - 情感倾向性分析

目录

1 背景及意义

2 文本情感分析词典与数据库

3 文本情感特征

4 文本情感识别

5 舆情分析

6 总结


1 背景及意义

1. 概念: 情感倾向性分析:是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程;识别用户对事物或人或一句话的看法、态度,即判别用户对评价对象所持有的情感倾向。

2. 文本情感分类:

        情感分析粒度(篇章级、句子级、短语级、词语级);

        情感信息抽取(观点持有者, 评价对象,评价词或短语,主观性关系),找到预料中情感的来源和受体;

情感信息分类(主客观分类,情感极性分类),最常见的褒贬二元分类,以及更细致的多元分类,按照极性分类:正向,负向,中性;

3. 文本情感分析应用

商品评论,电影评论,个性化观点挖掘,用户兴趣挖掘

2 文本情感分析词典与数据库

1. 情感词典包括: 情感词典(高兴、悲伤等)、程度词典(非常、稍微)、否定词典(没有、木有)、连词词典(然而、不过)

2. 现有情感词典

        General Inquirer(GI)词典:1996年开发,英文文本情感词典

         HowNet知网: 中、英文词语所代表的概念为描述对象

        SentiWordNet:是WordNet中英文词典中用于情感分析的词典

        主观词典:OpinionFinder系统

3. 情感词典获取: 

        手工方法: wordnet, hownet

        词典方法:先从种子词典开始(人工标注的少量情感词典),通过语义相似度找到种子词典的同义词、反义词

        基于语料库:从种子词典开始,通过共现度、关系词、Latent Semantic Analysis等方法扩展词典       

4. 英文情感语料

        MPQA: 535 news articles(subjective, objective; P, N, O)

        Movie review data: IMDB, Document-level 2000, Sentence level 5000

        Custom review data: Product reviews

        Multi-product reviews: Book, Electronic, Kitchen, DVD; 2000 in each domain

        TREC Blog corpus: Blog data, 3,000,000 Webpages

        Multiple-aspect restaurant reviews: 4,488reviews, Each review labeled as 1-5 stars

5. 中文情感语料

        ChnSentiCorp_htl_all数据集

                7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论

        waimai_10k数据集

                 某外卖平台收集的用户评价,正向4000 条,负向约 8000 条

        online_shopping_10_cats数据集

                10 个类别(书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、
酒店),共 6 万多条评论数据,正、负向评论各约 3 万条

        weibo_senti_100k数据集

                10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条。

        simplifyweibo_4_moods数据集

                36 万多条,带情感标注 新浪微博,包含 4 种情感,其中喜悦约 20 万条,愤怒
、厌恶、低落各约 5 万条

        下载地址:
               https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/

3 文本情感特征

1. 常见的文本表示模型有:

        向量空间模型(如one-hot,维度灾难,词汇鸿沟);

        布尔模型(将向量空间模型中的权重限制为0或1,0表示特征不存在,1表示存在,不能反应特征词语对文档的贡献程度);

        词向量模型(文本内容处理,简化为向量空间中的向量运算,Word2vec, Gensim, Glove);

2. 文本特征提取方法

        文档频率法:TF-IDF(词频term frequency-逆文档频率法 inverse document frequency)

                词频(TF) = 某个词在文章中出现的次数 / 文章的总词数

                逆文档频率(IDF) = log(collection总文档数 / (包含该词的文档数 + 1))

                TF-IDF = TF x IDF

                也就是说如果一个词在某一文档中出现次数较多,在整体文档中出现次数较少,则其TF-IDF值就大;

        信息增益法:依据某特征项为整体分类所能提供的信息量多少来衡量该特征项的重要程度,从而决定该特征项的取舍;

                信息增益是不考虑任何特征时文档的熵,与考虑该特征时文档的熵的差值。

                熵:表示随机变量的不确定性;

                条件熵: 在一个条件下,随机变量的不确定性

                信息增益: 熵 - 条件熵,表示在一个条件下,信息不确定性减少的程度

        卡方统计法:

                卡方值可以衡量词与类别的相关程度

                观察实际值与理论值的偏差来确定理论正确性;

                \sum_{i}^{n}{\frac{\left( x_{i}\; -\; \mbox{E} \right)^{2}}{\mbox{E}}}

                假设理论值为E,实际值为x,xi 表示样本

                如果差值很大,则认为与原假设(独立假设)不符合,认为词与类别很相关

4 文本情感识别

  1. 分为四种

                基于情感词典

                基于统计的机器学习

                基于深度学习

                基于预训练模型

2. 基于情感词典的文本情感识别

        主要以情感词典为基础,通过判断文本中是否出现该情感词,来判断文本情感;

        需要考虑:不同领域下,相同情感词表达有差异;

        不能有效处理带有否定词的情况;

        隐含情感信息的文本效果较差;

        情感词典的系统框架:

3. 基于统计的机器学习文本情感识别

        用机器学习算法对已标记的语料进行训练,再将训练过的分类器用于未知文本的情感分类

        朴素贝叶斯;

        支持向量机;

        最大熵模型;

        不仅考虑情感关键词和其他词汇的倾向性,而且对文本中的标点以及多个词汇出现的频率特征自动学习

4. 基于深度学习的文本情感识别

        FastText 模型

        TextCNN模型

        TextCNN模型

        TextRNN + Attention模型

FastText模型: 句子中所有的词向量进行平均,然后接一个softmax层分类,完全没有考虑词序信息

TextCNN模型: 利用CNN来提取句子中类似n-gram的关键信息

TextRNN模型: 双向LSTM从某种意义上可以理解为可以捕获变长且双向的n-gram信息

对此结果的贡献。

5. 基于预训练的文本情感识别

        基于Bert模型的文本情感识别

        基于XLNet模型的文本情感识别(XLNet 是在Bert模型基础上的改进,提出的一种泛华自回归预训练方法)

5 舆情分析

1. 舆情分析,又称为社交媒体情感分析,基于新闻媒体的情感分析多用于舆论分析,服务于政府部门;

2. 舆情分析与情感分析区别:

        用途不同:基于产品评论的情感分析多用于商业,舆情分析多用于政府部门;

        复杂性不同: 舆情分析是个比较复杂的系统,涉及更多的技术;

        舆情分析信息来源更广泛:新闻评论,BBS,聊天室,博客,RSS等;

        舆情分析具有突发性、直接性、偏差性:

        直接性:通过BBS,新闻点评和博客网站,网民可以立即发表意见,下情直接上达,民意表达更加畅通;

        突发性:网络舆论的形成往往非常迅速,一个热点事件的存在加上一种情绪化的意见,就可以成为点燃一片舆论的导火索;

        偏差性:由于发言者身份隐蔽,并且缺少规则限制和有效监督,网络自然成为一些网民泄愤情绪的空间;

3. 舆情分析系统框架

        数据采集层:负责从社交媒体中采集资源;

        数据处理层:对采集的原始数据进行预处理

        报告展示层:舆情分析的结果最终以报告、统计图表等形式展示给用户,为用户下一步决策提供指导依据。

4. 舆情具有突发性,通常会用到网络爬虫技术,在社交媒体网站上爬取开源数据

        首先从社交媒体网页中抓取用户的链接地址并存放如网页链接地址队列中;

        从网页链接地址队列中依次读取待抓取链接地址,访问并下载该页面;

        通过解析下载页面,把需要的文本数据以及对应图片保存,同时检测是否有其他用户链接地址;

        跳转步骤(2),直到网页链接地址队列为空。

5. 基于概率图模型的舆情分析

        通过分析训练语料建立一种具有先验概率的图模型,来计算语料中词语的情感概率值,再利用信息熵将概率值归一化为情感特征值,最后用分类器来分类

6. 舆情分析应用: 热点敏感话题识别; 主题跟踪;突发事件分析;可视化统计分析;

6 总结

1. 文本倾向性分析,在商业和政府舆情上都有很好的应用前景;

2. 情感信息抽取需要充分考虑预警信息;

3. 进一步探索融合语义信息的情感分析;

4. 面向开源碎片化文本的情感倾向性分析仍具挑战。

  • 2
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 微博SVM情感分析是指利用支持向量机(Support Vector Machine,SVM)算法对微博文本进行情感分析的方法。情感分析是对文本进行情感倾向性判断的过程,通过对微博文本中的词语进行情感分类,可以得出文本表达的情感是积极、消极还是中性。 在进行微博SVM情感分析时,首先需要构建一个适用于训练和测试的数据集。数据集应包含大量的微博文本,这些文本需要经过人工标注,标注每个文本的情感类别,例如积极/消极/中性。 接下来,将文本进行预处理,包括分词、去掉停用词等。分词是将文本拆分为基本词语单位的过程,例如将一句话拆分为单个词语。去掉停用词是指去掉文本中一些无意义的常用词,如“的”、“是”等。 然后,将预处理后的文本转换为特征向量表示。可以使用词袋模型来表示文本,将每个微博文本表示为一个向量,向量中的每个元素代表一个词语在文本中出现的频率。这样可以将文本转化为数值特征,方便后续的分类任务。 接着,使用支持向量机算法对特征向量进行训练和分类。支持向量机是一种常用的分类算法,通过在高维空间中构建超平面,将不同类别的数据进行有效分割。在训练过程中,使用标注好的数据集进行模型的训练,以学习分类规则。在测试过程中,使用训练好的模型对未知的微博文本进行情感分类。 最后,评估模型的性能。可以使用一些评估指标,如准确率、召回率、F1值等来评估模型在分类任务上的性能。同时,也可以通过观察模型对测试数据的分类效果,判断模型的好坏。 总之,微博SVM情感分析是一种利用支持向量机算法对微博文本进行情感分类的方法。通过构建合适的数据集,进行预处理和特征表示,使用支持向量机进行训练和分类,最后评估模型的性能,可以实现对微博文本情感的准确判断。 ### 回答2: 微博SVM情感分析是通过使用SVM算法对微博文本进行情感分类的一种方法。SVM(支持向量机)是一种非常有效的机器学习算法,常用于文本分类和情感分析等任务。 对于微博情感分析,首先需要准备一个数据集,其中包含了带有标签的微博文本和相应的情感分类。该数据集可以由人工进行标注,将微博文本分成正面、负面和中性三类。 接下来,需要对微博文本进行预处理,包括去除特殊符号、停用词和不重要的词汇等。然后,将文本转换为向量表示,这可以使用词袋模型或者词嵌入等技术。 在准备好数据后,可以使用SVM算法进行训练和测试。训练过程中,将文本向量作为输入,与标签进行匹配,以学习分类模型。具体来说,SVM通过寻找一个能够最大化正负样本之间间隔的超平面来进行分类。 在训练完成后,可以使用这个分类模型对新的微博文本进行情感分析。将待分析的微博文本转换为向量表示后,使用训练好的SVM模型进行预测,判断其情感类别。 最后,通过对预测结果与真实标签进行比对,可以评估模型的准确性和性能。 总的来说,微博SVM情感分析结合了SVM算法和微博文本,能够对微博中的情感进行自动分类和分析。数据集的准备和SVM算法的训练都是实现微博情感分析的重要步骤。 ### 回答3: 微博SVM情感分析是利用SVM(支持向量机)算法对微博文本进行情感分类的一种方法。根据微博中的文字、表情和其他文本特征,将文本划分为正向情感、负向情感或中性情感。 在进行微博SVM情感分析之前,首先需要一个数据集,即一组有标记的微博文本。这些标记可以是正向情感、负向情感或中性情感的标签。构建数据集时,可以手动标记微博文本,也可以通过爬取已经标注好情感的微博数据。 接下来,可以使用Python中scikit-learn等机器学习库来实现微博SVM情感分析。首先,将微博文本转换为向量表示,常用的方法是使用词袋模型。将每个微博文本转换为一个向量,其中包含每个词在文本中的出现次数。 然后,可以使用SVM分类器对向量进行训练。在训练过程中,SVM会找到一个最佳的超平面,将不同情感的微博文本分离开来。训练完成后,可以使用该模型对新的微博文本进行情感分类。 评估微博SVM情感分析模型的性能可以使用交叉验证等方法。通过将数据集划分为训练集和测试集,可以计算模型的准确度、精确度、召回率等指标。 使用微博SVM情感分析可以帮助企业和个人快速准确地了解社交媒体上用户的情感倾向。例如,企业可以通过分析用户的微博情感来了解产品的受欢迎程度,以便及时调整营销策略。个人用户也可以利用情感分析来了解自己在社交媒体上的形象和情感影响力。 总结来说,微博SVM情感分析是一种利用SVM算法对微博文本进行情感分类的方法,需要构建带有标记的微博数据集,并使用机器学习库进行模型训练和评估。该方法可以帮助了解用户的情感倾向,并为企业和个人决策提供参考。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值