地摊经济数据集分析 – 分词+聚类+词云
背景描述
地摊经济,是指通过摆地摊获得收入来源而形成的一种经济形式。地摊经济是城市的一种边缘经济,一直是影响市容环境的关键因素,但地摊经济有其独特优势,在金融危机背景下能一定程度上缓解就业压力。
2020年5月27日,中央文明办明确,在2020年全国文明城市测评指标中不将马路市场、流动商贩列为文明城市测评考核内容 。6月1日上午,国务院总理李克强在山东烟台考察时表示,地摊经济、小店经济是就业岗位的重要来源,是人间的烟火,和“高大上”一样,是中国的生机。
数据说明
数据列说明
列名 | 说明 |
---|---|
url | 网址 |
danmu_infos | 弹幕信息 |
danmu_text | 弹幕文本内容 |
主要内容
1、 对无用的数据进行整理
2、 用正确的方式完成数据清洗
3、 对弹幕文本内容进行合理分词
4、 根据分词结果建立词向量完成聚类,根据聚类结果形成词云,对于人们的评论观点进行分析
配置及代码核心实现
数据预处理
数据预处理:将未加工数据转换成适合分析的形式,包括多数据源的数据融合、数据清洗、维规约等等。为什么要进行预处理:原始数据普遍存在问题,必须加以处理才能用于分析,一方面要提高数据质量,另一方面为了更好的使数据适应特定的数据挖掘技术及工具。
(1)导入库、读取数据
import pandas as pd
import numpy as np
from sklearn import ensemble
df = pd.read_csv('成都地摊的经济与文化-B站弹幕.csv')
df.head() #查看部分数据
(2)数据空值,重复值处理
# 查看重复值
df.duplicated()
#统计重复着个数
df.duplicated().sum()
#空值处理,把空值用空格符代替
df.fillna(' ')
(3)把submit_time分割获取更多的数据,方便进行后面的任务
import time
# 定义转换时间
def transform_timestamp(time_second):
timeArray = time.gmtime(time_second)
otherStyleTime = time.strftime('%Y-%m-%d %H:%M:%S', timeArray)
return otherStyleTime
# 提取时间,把submit_time用split进行分割,获取x[4],然后进行时间转换,然后重新创建submit_time标签
df['submit_time'] = df['danmu_infos'].str.split(',').apply(lambda x:x[4])
df['submit_time'] = df['submit_time'].astype('int').apply(lambda x: transform_timestamp(x))
# 提取日期,把submit_time用split进行分割,获取x[0],然后进行时间转换,然后重新创建submit_date和submit_hour标签
df['submit_date'] = df['submit_time'].str.split(' ').apply(lambda x:x[0])
df[