疫情下微博用户情感分析_基于机器学习的微博情感分析

最新推荐文章于 2024-07-19 14:22:21 发布

weixin_39765290

最新推荐文章于 2024-07-19 14:22:21 发布

阅读量2.2k

点赞数 4

这篇博客介绍了如何利用机器学习对微博评论进行情感分析。数据来源于github，包括12万条正负向评论。作者使用python进行数据处理，通过jieba分词和TfidfVectorizer进行文本向量化，然后应用朴素贝叶斯、逻辑回归、随机森林、GradientBoostingClassifier、xgboost和lightgbm模型。最终，选择GradientBoostingClassifier、xgboost和lightgbm的投票结果，得到0.95的预测准确率。

摘要由CSDN通过智能技术生成

一、数据获取

数据来源于github，文末会附数据来源链接。数据包含微博评论约12万条，其中正向评论、负向评论各约6万条。数据有label、review两个字段，其中label字段用于表示评论是否是正向评论，当取值为1时表示正向评论，取值为0时表示负向评论；review字段用于表示微博评论内容。

二、数据导入与探索

全文运用python作为数据处理、预测的工具。首先利用pandas库导入数据并观察一下前五行数据来看一下数据的大致情况：

import pandas as pddata=pd.read_csv(r'C:\Users\zhousiying\Desktop\weibo_senti_100k\weibo_senti_100k\weibo_senti_100k.csv')data.head()

所得到的结果如下：

然后看一下数据是否存在空值：

data.isnull().sum()

所得结果如下：

label 0 review 0 dtype: int64

结果表示数据集中不存在空值，因此不需要对空值

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39765290

关注关注

4
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

基于机器学习算法的微博评论情感分析实战（毕设项目）

机器学习深度学习业余选手

01-13

1376

基于机器学习算法的微博评论情感分析实战（毕设项目）

机器学习项目（四）疫情期间网民情绪识别（一）

qq_33357094的博客

03-27

8695

疫情期间网民情绪识别赛题背景 2019新型冠状病毒（2019-nCoV）感染的肺炎疫情发生对人们生活生产的方方面面产生了重要影响，并引发国内舆论的广泛关注，众多网民参与疫情相关话题的讨论。为了帮助政府掌握真实社会舆论情况，科学高效地做好防控宣传和舆情引导工作，本赛题针对疫情相关话题开展网民情绪识别的任务。数据介绍训练集 10万条无标记样本90万条测试集1万条数据集依据与“新冠肺炎”相关...

参与评论您还未登录，请先登录后发表或查看评论

Python 基于机器学习的微博情感分析与研究

程序员徐师兄的博客

02-10

1567

训练集/测试集词频统计, 已去停用词, 不同的分词方法得到的结果会略有差异。

计算机毕业设计之基于机器学习的微博情感分析的设计与实现

最新发布

2401_85506100的博客

07-19

266

摘要随着互联网技术的飞速发展，社交媒体已成为人们日常生活中不可、缺的一部分。微博作为中国最具影响力的社交媒体平台之一，其上的海量文本数据蕴含着丰富的情感信息。这些情感信息对于了解用户心理、分析社会热点、提高服务质量等方面具有重要意义。因此，基于机器学习的微博情感分析研究受到了广泛关注。本文针对微博情感分析这一问题，提出了一种基于机器学习的方法。首先，从微博原始文本中提取特征，包括文本的词频、词向量、语法结构等信息。然后，使用机器学习算法训练模型，对微博文本进行情感分类。

疫情背景下，基于情感词典和机器学习对新闻和微博评论的情感分析

06-22

# emotionAnalysis 疫情背景下，基于情感词典和机器学习对新闻和微博评论的情感分析 # Data Science Basics in SWI, NJU, 2020-Fall > ## 计算社会学：基于NLP技术的新冠疫情下的社会心态研究 Cong Jin , YDJSIR, Sugar Xu‘s project of 2020 Data Science Basic Course in SWI, NJU. 此为发布开源的版本而不是开发环境中使用的版本。 ## 文件结构 ```bash │ LICENSE │ README.md ├─Analyze # 分析数据的过程中所使用的所有代码 ├─Data # 原始数据以及处理过后的所有数据 ├─Report # 报告相关源文件以及最终报告的成品 └─Spyder # 爬虫代码 ``` 文件结构经过事后整理，并不是工作时目录的状态，因而代码中所涉及的路径需要稍加修改后运行。原始报告数据在评分后抹掉相关关键词后后放出。 > ### `Data`目录下文件结构 > > 该目录下共有6个文件夹，分别对应`stage0` - `stage6` > > ##### stage内文件目录结构 > > ```bash > │ COVkeywords-Stage-.json # 人工筛选后的疫情相关关键词 > │ COVkeywords-Stage.json # 未经筛选的疫情关键词 > │ keywords-Stage.json # 从荔枝新闻中获取的原始结果 > │ ratioByDate.png # 该阶段内每日疫情相关重点微博占比 > │ SaveTest.png # 疫情相关度分布拟合结果图1 > │ SaveTest_Fit.png # 疫情相关度分布拟合结果图2 > │ stageCOVWeibo.json # 该阶段内疫情相关重点微博（按时间先后排序） > │ stageCOVWeiboByImportance.json # 该阶段内疫情相关重点微博（按疫情相关度排序） > | SaveTest-热度.png # 各项热度指标占比 > │ stageInfo.json # 该阶段基础信息 > │ weiboPolar.png # 疫情相关重点微博情感极性图 > | weiboEmotion.png # 当前阶段的疫情相关微博情感倾向 > ├─YYYY-MM-DD- > ├─YYYY-MM-DD- > ├─YYYY-MM-DD- > ├─YYYY-MM-DD- > ... > └─YYYY-MM-DD- > ``` > > ##### 每个日期内文件目录结构 > > ```bash > YYYY-MM-DD > | jstvRAW.csv # 疫情相关关键词检索得到的荔枝新闻原始数据 > | keywords.json # 荔枝新闻正文提取出来的关键词及其乘以100以后的TextRank权值 > | wordcloud.html # 由荔枝新闻生成的词云图 > | blog-Scored.json # 每篇微博都有一个疫情相关度 > | blog-COV.json # 筛选后的新冠疫情相关微博 > | blogInfo.json # 当日博客相关基础信息 > | weiboEmotion.png # 基于心态词典的当日疫情相关微博重点评论情感分析生成的雷达图 > └─weiboEmotion.csv # 基于心态词典的当日疫情相关微博重点评论情感分析原始数据 > ``` ======= # emotionAnalysis 疫情背景下，基于情感词典和机器学习对新闻和微博评论的情感分析

毕业设计基于各种机器学习和深度学习的中文微博情感分析

uteegdh的博客

03-15

393

基于各种机器学习和深度学习的中文微博情感分析提示：适合用于课程设计或毕业设计，工作量达标，源码开放1、用FastText在语料库上训练并生成词向量, 该任务语料库较小, 用fastText可以增加n-gram特征，比传统word2vec要好2、训练集10000条语料, 测试集500条语料3、分别用SVM, Bayes, DNN, LSTM, Attention+BiLSTM, XGBoost等多种模型搭建并训练正负情感二分类器SVM其实不太适合做NLP，只是当年我还很菜所以选了SVM。

Python基于情感词典和机器学习对新闻和微博评论的情感分析源码+项目说明+数据集+代码注释.zip

07-21

Python基于情感词典和机器学习对新闻和微博评论的情感分析源码+项目说明+数据集+代码注释.zip 该资源内项目源码是个人的毕设，代码都测试ok，都是运行成功后才上传资源，答辩评审平均分达到94.5分，放心下载使用！ ...

基于机器学习的人民日报和微博等与疫情有关话题数据两极情感分析.zip

06-08

目前情感倾向分析的主流方法有两类，其一是基于情感词典，这需要应用到标注好的情感词典，英文语料的各类词典数量庞大，而现有的中文语料的词典却不是很多，主要有知网整理的情感词典Hownet和台湾大学整理发布的...

各种机器学习和深度学习的中文微博情感分析

datayx的文章

03-19

674

向AI转型的程序员都关注了这个号????????????机器学习AI算法工程公众号：datayx"情感分析"是我本科的毕业设计, 也是我入门并爱上NLP的项目hhh, 当时网上相关语料库的质量都太低了...

基于字典与机器学习的中文微博情感分析研究（2014.7 计算机应用与软件）

张果果的博客

08-05

647

阅读笔记词典的构建情感词典的构建：《学生褒贬义词典》中的正负情感词，《知网》提供的正负情感词以及搜狗实验室提供的互联网词库SogouW合并去重你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持...

基于机器学习的微博评论情感分析.pdf

09-24

基于机器学习的微博评论情感分析.pdf

emotionAnalysis:疫情背景下，基于情感词典和机器学习对新闻和微博评论的情感分析

03-06

情绪分析疫情背景下，基于情感词典和机器学习对新闻和微博评论的情感分析

微博情感分析数据集

10-14

微博情感200万条数据集，情感分析研究人员的很好的实验数据

微博情感分析测评数据

05-26

内含测评数据，评测数据，样本数据以及原始未标注数据。

新浪微博，情感分析标记语料共12万条

01-19

本资源为自己人工标记的微博语料，分为消极pos.txt，积极neg.txt 各60000条，适用于机器学习情感分析，训练数据原数据

基于SVM+AdaBoost加强分类器的微博情感分析（Python）

毕业作品网站

10-19

1522

‘拿’, ‘这种’, ‘否则’, ‘愉快’, ‘我’, ‘说’, ‘力’, ‘以后’, ‘大家’, ‘太’, ‘博’, ‘一起’, ‘[酷]’, ‘在’, ‘还’, ‘奖品’, ‘了’, ‘给’, ‘事’, ‘吧’, ‘礼’, ‘#’, ‘这里’, ‘能’, ‘等级’, ‘专’, ‘要’, ‘人品’, ‘试试’, ‘怎么’, ‘正’, ‘微’, ‘享’, ‘的’, ‘领取’, ‘一’, ‘和’, ‘去’, ‘，’, ‘快’, ‘一定’, ‘玩耍’]之后，再将所有的原始文本转化为特征表示的形式。

基于机器学习的人民日报和微博等与疫情有关话题数据两极情感分析

毕业作品网站

01-08

636

目录 1.中文分词 Chinese Word Segmentation 1.1中文分词问题 1.2常用中文分词方法 1.3开源免费的分词软件 2.特征提取 Feature Extraction 3.计算信息量 Calculate information content 4.对每个特征按信息量排序 sorting 5.给训练数据打标签 tagging the training set 6.训练并测试不同的分类模型 training and testing diﬀerent classiﬁcation mode

疫情下微博用户情感分析_疫情牵动人心，情感支柱几何？——微博情感极性分析...

weixin_39779032的博客

11-22

1369

2020年伊始，新型肺炎疫情给神州大地带来了一场意想不到的风暴，亿万民众都在牵挂与盼望中度过了一个不平凡的假期，我们试图利用微博文本，从情感极性分析的角度看一看这场风暴中普普通通的每一个平凡人在怎么面对这场挑战。一、疫情发展概况图1 全国疫情空间分布(来源于网络)图2 全国疫情的发展趋势(来源于网络)二、微博情感极性分析及其时间变化微博在中文社交媒体圈依然占据重要地位，众...

python实现贝叶斯算法疫情微博评论情感分析

09-05

贝叶斯算法是一种常用于情感分析的算法之一，并且Python提供了丰富的库和工具来实现。实现贝叶斯算法进行疫情微博评论情感分析可以分为以下几个步骤： 1. 数据收集：首先需要收集疫情微博评论的数据集，可以通过API接口或爬虫等方式获取。数据集中应包含评论文本和对应的情感标签（如积极、消极或中性）。 2. 文本预处理：对评论文本进行预处理，包括去除特殊字符、转换为小写字母、分词等操作。可以使用Python中的nltk库、jieba库等进行文本预处理。 3. 特征提取：从预处理后的评论文本中提取特征，如词袋模型、TF-IDF等。可以使用Python中的sklearn库提供的特征提取工具进行操作。 4. 构建训练集和测试集：将特征和对应的情感标签划分为训练集和测试集，一般可以按照70%的比例进行划分。训练集用于模型训练，测试集用于评估模型的性能。 5. 构建贝叶斯分类器模型：使用Python中的sklearn库提供的朴素贝叶斯分类器进行建模。根据特征和情感标签进行训练，得到分类器模型。 6. 情感分析：使用构建好的分类器模型对未知评论进行情感分析。根据特征提取和训练好的模型，对新的评论进行预测，得到相应的情感标签。 7. 评估和优化：对模型进行评估，可以使用精确率、召回率、F1值等指标进行评估。根据评估结果，可以对模型进行优化，如调整特征提取方法、调整模型参数等。通过以上步骤，便可以使用Python实现贝叶斯算法进行疫情微博评论情感分析。