3-对链家二手房数据进行预处理，以及利用CNN进行多分类操作

最新推荐文章于 2023-08-07 22:34:13 发布

chuiai8582

最新推荐文章于 2023-08-07 22:34:13 发布

阅读量1.6k

点赞数 2

文章标签：人工智能 python 爬虫

原文链接：https://my.oschina.net/pansy0425/blog/3031736

版权

本文详述了对链家二手房数据的预处理步骤，包括去重、去缺失值、格式转换和向量化，并使用CNN进行多类别分类。尽管分类精度仅为41.008%，但作者分析了数据量小、样本分布不均和数据切分不确定性等问题，认为这是精度低的原因。整个分析过程在jupyter中进行，方便观察每一步的结果。

摘要由CSDN通过智能技术生成

使用：26-爬取链家二手房成交的房产信息【简单】

（https://my.oschina.net/pansy0425/blog/3031621），对爬取到的数据进行简单的清洗，去噪，进行数据预处理，以及自己构建features和labels基于CNN（卷积神经网络）进行多个类别操作

（1）因为爬虫得到的数据很杂（缺失值，重复等），所以必须要预处理！！！

（2）因为本人的毕业论文主题是《基于卷积神经网络进行地物分类研究》，卷积神经网络（CNN）不敢说全懂，但是使用它做分类这个流程不是问题，本文简单应用下CNN进行分类【但是因为我自己做的数据集存在一些问题，导致分类效果很差，这边我会分析原因】

注：本文的数据分析，我一步一步的讲解，你仔细看，肯定可以看懂啊！！！快快跟着我入门！！！

【注：本文的数据分析是在jupyter中执行的，可以看到每一步的执行结果，很方便】

【做数据分析，强推：jupyter】

----------------------------华丽的分割线【进入学习模式】-------------------------------

#导入基础的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt  #画图
%matplotlib inline  #为了让画图直接在jupyter中显示

#导入原始数据，查看数据的一些基本信息
data=pd.read_csv(r'C:\Users\Administrator\lianjia.csv',encoding='utf-8')  #读取csv数据
#data.head(3)  #查看前3前行的数据
#data.describe()  #基本统计量  【只能针对数值类型】 
                  #包含：count数量；mean均值；std标准差；min最小值；25%下四分位；50%中位数；75%上四分位；max最大值
#data.info()  #查看每列的数据类型

#选择合理的数据进行模型处理，比如选择：cjdanjia,cjxiaoqu,cjlouceng,cjmianji，【目的：想看下cjmianji、cjdanjiacjlouceng对cjxiaoqu的影响】
data=data[['cjxiaoqu','cjdanjia','cjmianji','cjlouceng']]
#data.head(3)
#data.info()

#缺失值的处理【爬虫和数据中包含缺失值，需要对缺失值进行处理】
(data.isnull()).sum()  #没有缺失值   【本文数据，这边的结果为0】
#若有缺失值【假设有缺失值】
#data=data.dropna()

#重复值的处理【爬虫中的数据会出现大量重复值，需要对重复值进行处理】
(data.duplicated()).sum()  #有5个重复值  【本文数据，这边的结果为5】
#(data.dupl

最低0.47元/天解锁文章

chuiai8582

关注

2
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
3-对链家二手房数据进行预处理，以及利用CNN进行多分类操作

使用：26-爬取链家二手房成交的房产信息【简单】（https://my.oschina.net/pansy0425/blog/3031621），对爬取到的数据进行简单的清洗，去噪，进行数据预处理，以及自己构建features和labels基于CNN（卷积神经网络）进行多个类别操作（1）...
复制链接

扫一扫