数据初步分析——房价的可视化1

最新推荐文章于 2024-05-03 08:44:25 发布

Miraclemie

最新推荐文章于 2024-05-03 08:44:25 发布

阅读量1.2k

点赞数

分类专栏： python数据分析文章标签： python基础小项目

本文链接：https://blog.csdn.net/nonem101/article/details/90109550

版权

python数据分析专栏收录该内容

3 篇文章 1 订阅

订阅专栏

本人作为一个python初学者，做了一个对安居客的网站上的新房房价的爬取，利用了爬虫将该网站的淮安区域的数据采集下来，并对这些数据进行一些初步的分析，由于比较基础，想透过这个小项目能够向数据分析的方向更近一步，望各位大佬批评指正。

首先我主要还是利用python里常用于分析的pandas库

import pandas as pd
df=pd.read_csv(r"C:\Users\Administrator\Desktop\淮安房产网信息.csv",engine="python",encoding="gbk")#读取csv文件专用步骤，需要解码
df.head()#呈现表格

ps：这里的数据主要也是经过了excel的处理。

#看一下每一列是否有空值
df.isnull().any()

df["卖点"]=df["字段1"]+df["字段2"]+df["字段3"]+df["字段4"]#这里新建一栏“卖点”主要是想在下面利用jieba库的分词，制作词云
df=pd.DataFrame(df.astype(str))
#首先对标题的卖点进行文本分析
title=df.卖点.values.tolist()
title

这一步可能会有点多余，因为本来新房的卖点也是已经分好的，但是通过这些操作将其整合在一起，显得有点杂乱无章，但是还是可以通过其他方式在进行整合一下。

import jieba
title_s=[]
for line in title:
    title_cut=jieba.lcut(line)
    title_s.append(title_cut)
with open("中文停用词表.txt","r") as f:   #这里的“中文停用词表”需要在网上下载
    stopwords = f.read()    
 
#如果“卖点”里有停用词，将其提出，不出现在最后的词云
title_clean=[]
for line in title_s:
    line_clean=[]
    for word in line:
        if word not in stopwords:
            line_clean.append(word)
    title_clean.append(line_clean)
title_clean    #这一步相当于数据清洗

由于这些数据的类型还不够简洁，需要将其全部转换成列表。

#转化成一个列表
all_title_clean=[]
for line in title_clean:
    for word in line:
        all_title_clean.append(word)
all_title_clean

这一步相当于彻底完成数据初步清洗工作。

最终的词云图生成如下：

Miraclemie

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录