俄亥俄州氯乙烯泄露事件文本分析-Python语言实战

最新推荐文章于 2024-10-02 10:53:34 发布

MeilingZhong1120

最新推荐文章于 2024-10-02 10:53:34 发布

阅读量47

点赞数

文章标签： python 数据挖掘

本文链接：https://blog.csdn.net/MeilingZhong1120/article/details/131925951

版权

该文是一个关于俄亥俄州氯乙烯泄漏事件的新闻文本分析项目，涉及新闻标题、日期和情感标注。作者使用Python库如pandas、jieba和seaborn进行数据处理和可视化，进行了词频统计和情感分析，探讨了新闻发布时间、热点和关键词分布。尽管在词云生成时遇到stop_words_list未生效的问题，但整体上对新闻情感分布进行了初步统计和展示。

摘要由CSDN通过智能技术生成

这是一个课程作业，主要是摘取了美国国内具有影响力的新闻网站关于俄亥俄州氯乙烯泄漏事件的新闻报道标题、日期和全文，人工进行情感和重点标注，是一个进行文本分析的小尝试。

首先是配置需要的环境。

#This project was designed and coded by Meiling Zhong
pip install jieba
pip install wordcloud
#按道理英文的话要用nltk，但是由于wall的原因，pip的时候无法响应

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import seaborn as sns
from wordcloud import WordCloud      
import copy
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import StandardScaler
from sklearn import preprocessing


from sklearn.preprocessing import LabelEncoder


import jieba
import re
#import nltk
#import nltk.corpus as nc
#import nltk.classify as cf
#import nltk.classify.util as cu
#from nltk.corpus import stopwords
#from nltk.tokenize import word_tokenize


from datetime import datetime
from datetime import timedelta
import warnings
warnings.filterwarnings('ignore')

sns.set_style('white')
sns.set_palette('Set2')

接下来是导入数据和对数据进行查看。

df= pd.read_excel('俄亥俄数据5.31.xlsx').astype(str)
# 将data转换为DataFrame格式
df = pd.DataFrame(df)
df.head()
df.info()

在Jupyter中运行结果显示如下：

接下来，我们就可以开展一些简单的统计分析。

首先是新闻发布特点，如时间、热点、关键词等等。

在词频的统计上，一个缺陷是stop_words_list在运行当中好像并没有起到作用，导致后面词云生成有些不好。

除了这些，还可以对新闻的情感进行简单的统计。

我们还可以创建新的编码标签来观察新闻关键词、新闻情感和新闻类型之间的关系。

绘制的可视化图如下，可以反映不同情感类型的新闻在报道上的覆盖面。

第一个文本分析项目，存在很多不足，请多多指教。

MeilingZhong1120

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫