地摊经济数据集分析 -- 分词+聚类+词云

最新推荐文章于 2024-08-14 18:13:37 发布

ChlinRei

最新推荐文章于 2024-08-14 18:13:37 发布

阅读量1.8k

点赞数 2

分类专栏： python 文章标签：聚类数据挖掘 python

本文链接：https://blog.csdn.net/Mr_Ren_0_1/article/details/124596003

版权

该博客详细介绍了对地摊经济相关弹幕数据的分析过程，包括数据预处理、文本分词、K-means聚类和词云生成。通过对弹幕内容的清洗、分词，利用TF-IDF转换并进行K-means聚类，最终绘制词云图以揭示公众对地摊经济的主要观点和讨论热点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

地摊经济数据集分析 – 分词+聚类+词云

背景描述

地摊经济，是指通过摆地摊获得收入来源而形成的一种经济形式。地摊经济是城市的一种边缘经济，一直是影响市容环境的关键因素，但地摊经济有其独特优势，在金融危机背景下能一定程度上缓解就业压力。

2020年5月27日，中央文明办明确，在2020年全国文明城市测评指标中不将马路市场、流动商贩列为文明城市测评考核内容。6月1日上午，国务院总理李克强在山东烟台考察时表示，地摊经济、小店经济是就业岗位的重要来源，是人间的烟火，和“高大上”一样，是中国的生机。

数据说明

数据列说明

列名	说明
url	网址
danmu_infos	弹幕信息
danmu_text	弹幕文本内容

主要内容

1、对无用的数据进行整理

2、用正确的方式完成数据清洗

3、对弹幕文本内容进行合理分词

4、根据分词结果建立词向量完成聚类，根据聚类结果形成词云，对于人们的评论观点进行分析

配置及代码核心实现

数据预处理

数据预处理:将未加工数据转换成适合分析的形式，包括多数据源的数据融合、数据清洗、维规约等等。为什么要进行预处理：原始数据普遍存在问题，必须加以处理才能用于分析，一方面要提高数据质量，另一方面为了更好的使数据适应特定的数据挖掘技术及工具。

(1)导入库、读取数据

import pandas as pd
import numpy as np
from sklearn import ensemble

df = pd.read_csv('成都地摊的经济与文化-B站弹幕.csv')
df.head()   #查看部分数据

(2)数据空值，重复值处理

# 查看重复值
df.duplicated()
#统计重复着个数
df.duplicated().sum()
#空值处理,把空值用空格符代替
df.fillna(' ')

(3)把submit_time分割获取更多的数据，方便进行后面的任务

import time
# 定义转换时间
def transform_timestamp(time_second):
    timeArray = time.gmtime(time_second) 
    otherStyleTime = time.strftime('%Y-%m-%d %H:%M:%S', timeArray) 
    return otherStyleTime

# 提取时间,把submit_time用split进行分割，获取x[4]，然后进行时间转换，然后重新创建submit_time标签
df['submit_time'] = df['danmu_infos'].str.split(',').apply(lambda x:x[4])
df['submit_time'] = df['submit_time'].astype('int').apply(lambda x: transform_timestamp(x))

# 提取日期，把submit_time用split进行分割，获取x[0]，然后进行时间转换，然后重新创建submit_date和submit_hour标签
df['submit_date'] = df['submit_time'].str.split(' ').apply(lambda x:x[0])
df[