3-对链家二手房数据进行预处理,以及利用CNN进行多分类操作

本文详述了对链家二手房数据的预处理步骤,包括去重、去缺失值、格式转换和向量化,并使用CNN进行多类别分类。尽管分类精度仅为41.008%,但作者分析了数据量小、样本分布不均和数据切分不确定性等问题,认为这是精度低的原因。整个分析过程在jupyter中进行,方便观察每一步的结果。
摘要由CSDN通过智能技术生成

使用:26-爬取链家二手房成交的房产信息【简单】

(https://my.oschina.net/pansy0425/blog/3031621),对爬取到的数据进行简单的清洗,去噪,进行数据预处理,以及自己构建features和labels基于CNN(卷积神经网络)进行多个类别操作

(1)因为爬虫得到的数据很杂(缺失值,重复等),所以必须要预处理!!!

(2)因为本人的毕业论文主题是《基于卷积神经网络进行地物分类研究》,卷积神经网络(CNN)不敢说全懂,但是使用它做分类这个流程不是问题,本文简单应用下CNN进行分类【但是因为我自己做的数据集存在一些问题,导致分类效果很差,这边我会分析原因】

注:本文的数据分析,我一步一步的讲解,你仔细看,肯定可以看懂啊!!!快快跟着我入门!!!

【注:本文的数据分析是在jupyter中执行的,可以看到每一步的执行结果,很方便】

【做数据分析,强推:jupyter】

----------------------------华丽的分割线【进入学习模式】-------------------------------

#导入基础的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt  #画图
%matplotlib inline  #为了让画图直接在jupyter中显示
#导入原始数据,查看数据的一些基本信息
data=pd.read_csv(r'C:\Users\Administrator\lianjia.csv',encoding='utf-8')  #读取csv数据
#data.head(3)  #查看前3前行的数据
#data.describe()  #基本统计量  【只能针对数值类型】 
                  #包含:count数量;mean均值;std标准差;min最小值;25%下四分位;50%中位数;75%上四分位;max最大值
#data.info()  #查看每列的数据类型
#选择合理的数据进行模型处理,比如选择:cjdanjia,cjxiaoqu,cjlouceng,cjmianji,【目的:想看下cjmianji、cjdanjiacjlouceng对cjxiaoqu的影响】
data=data[['cjxiaoqu','cjdanjia','cjmianji','cjlouceng']]
#data.head(3)
#data.info()
#缺失值的处理【爬虫和数据中包含缺失值,需要对缺失值进行处理】
(data.isnull()).sum()  #没有缺失值   【本文数据,这边的结果为0】
#若有缺失值【假设有缺失值】
#data=data.dropna()
#重复值的处理【爬虫中的数据会出现大量重复值,需要对重复值进行处理】
(data.duplicated()).sum()  #有5个重复值  【本文数据,这边的结果为5】
#(data.dupl
  • 2
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值