使用:26-爬取链家二手房成交的房产信息【简单】
(https://my.oschina.net/pansy0425/blog/3031621),对爬取到的数据进行简单的清洗,去噪,进行数据预处理,以及自己构建features和labels基于CNN(卷积神经网络)进行多个类别操作
(1)因为爬虫得到的数据很杂(缺失值,重复等),所以必须要预处理!!!
(2)因为本人的毕业论文主题是《基于卷积神经网络进行地物分类研究》,卷积神经网络(CNN)不敢说全懂,但是使用它做分类这个流程不是问题,本文简单应用下CNN进行分类【但是因为我自己做的数据集存在一些问题,导致分类效果很差,这边我会分析原因】
注:本文的数据分析,我一步一步的讲解,你仔细看,肯定可以看懂啊!!!快快跟着我入门!!!
【注:本文的数据分析是在jupyter中执行的,可以看到每一步的执行结果,很方便】
【做数据分析,强推:jupyter】
----------------------------华丽的分割线【进入学习模式】-------------------------------
#导入基础的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt #画图
%matplotlib inline #为了让画图直接在jupyter中显示
#导入原始数据,查看数据的一些基本信息
data=pd.read_csv(r'C:\Users\Administrator\lianjia.csv',encoding='utf-8') #读取csv数据
#data.head(3) #查看前3前行的数据
#data.describe() #基本统计量 【只能针对数值类型】
#包含:count数量;mean均值;std标准差;min最小值;25%下四分位;50%中位数;75%上四分位;max最大值
#data.info() #查看每列的数据类型
#选择合理的数据进行模型处理,比如选择:cjdanjia,cjxiaoqu,cjlouceng,cjmianji,【目的:想看下cjmianji、cjdanjiacjlouceng对cjxiaoqu的影响】
data=data[['cjxiaoqu','cjdanjia','cjmianji','cjlouceng']]
#data.head(3)
#data.info()
#缺失值的处理【爬虫和数据中包含缺失值,需要对缺失值进行处理】
(data.isnull()).sum() #没有缺失值 【本文数据,这边的结果为0】
#若有缺失值【假设有缺失值】
#data=data.dropna()
#重复值的处理【爬虫中的数据会出现大量重复值,需要对重复值进行处理】
(data.duplicated()).sum() #有5个重复值 【本文数据,这边的结果为5】
#(data.dupl