python execl数据清洗/词云可视化（一）

my向阳而生

已于 2024-04-10 11:54:48 修改

阅读量1.3k

点赞数 9

分类专栏： python相关数据分析文章标签： python

于 2024-01-15 20:29:20 首次发布

本文链接：https://blog.csdn.net/u014694915/article/details/135609722

版权

本文介绍了如何使用Python进行数据清洗，包括从Excel读取数据、去重、分词、剔除停用词，并通过jieba库实现。随后，对处理后的数据进行词频统计，并生成词云可视化图表。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据清洗

词云可视化

execl内容如下 :

库的导入


import pandas as pd
import jieba
from wordcloud import WordCloud
import matplotlib
# matplotlib.use('TkAgg')  OS报错macOS 12 (1207) or later required, have instead 12 (1206) !
matplotlib.use('Qt5Agg')
import matplotlib.pyplot as plt
import collections

停用的表如下：

数据清洗

对excel表的内容进行读取/查重/分词/统计

def filter_same():
    df = pd.read_csv(execl_path)  # 读取爬取的数据
    data = pd.DataFrame(df)
    # 删除重复行：
    datatmsp = data.drop_duplicates()
    # print(datatmsp)
   
    data = datatmsp[['标题', '价格']]
    # print(data)
    data.head()