地摊经济数据集分析 -- 分词+聚类+词云

该博客详细介绍了对地摊经济相关弹幕数据的分析过程,包括数据预处理、文本分词、K-means聚类和词云生成。通过对弹幕内容的清洗、分词,利用TF-IDF转换并进行K-means聚类,最终绘制词云图以揭示公众对地摊经济的主要观点和讨论热点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

地摊经济数据集分析 – 分词+聚类+词云

背景描述

地摊经济,是指通过摆地摊获得收入来源而形成的一种经济形式。地摊经济是城市的一种边缘经济,一直是影响市容环境的关键因素,但地摊经济有其独特优势,在金融危机背景下能一定程度上缓解就业压力。

2020年5月27日,中央文明办明确,在2020年全国文明城市测评指标中不将马路市场、流动商贩列为文明城市测评考核内容 。6月1日上午,国务院总理李克强在山东烟台考察时表示,地摊经济、小店经济是就业岗位的重要来源,是人间的烟火,和“高大上”一样,是中国的生机。

数据说明

数据列说明

列名 说明
url 网址
danmu_infos 弹幕信息
danmu_text 弹幕文本内容

主要内容

1、 对无用的数据进行整理

2、 用正确的方式完成数据清洗

3、 对弹幕文本内容进行合理分词

4、 根据分词结果建立词向量完成聚类,根据聚类结果形成词云,对于人们的评论观点进行分析

配置及代码核心实现

数据预处理

数据预处理:将未加工数据转换成适合分析的形式,包括多数据源的数据融合、数据清洗、维规约等等。为什么要进行预处理:原始数据普遍存在问题,必须加以处理才能用于分析,一方面要提高数据质量,另一方面为了更好的使数据适应特定的数据挖掘技术及工具。

(1)导入库、读取数据

import pandas as pd
import numpy as np
from sklearn import ensemble

df = pd.read_csv('成都地摊的经济与文化-B站弹幕.csv')
df.head()   #查看部分数据

(2)数据空值,重复值处理

# 查看重复值
df.duplicated()
#统计重复着个数
df.duplicated().sum()
#空值处理,把空值用空格符代替
df.fillna(' ')

(3)把submit_time分割获取更多的数据,方便进行后面的任务

import time
# 定义转换时间
def transform_timestamp(time_second):
    timeArray = time.gmtime(time_second) 
    otherStyleTime = time.strftime('%Y-%m-%d %H:%M:%S', timeArray) 
    return otherStyleTime

# 提取时间,把submit_time用split进行分割,获取x[4],然后进行时间转换,然后重新创建submit_time标签
df['submit_time'] = df['danmu_infos'].str.split(',').apply(lambda x:x[4])
df['submit_time'] = df['submit_time'].astype('int').apply(lambda x: transform_timestamp(x))

# 提取日期,把submit_time用split进行分割,获取x[0],然后进行时间转换,然后重新创建submit_date和submit_hour标签
df['submit_date'] = df['submit_time'].str.split(' ').apply(lambda x:x[0])
df[
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ChlinRei

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值