前言
今天给大家介绍一个数据分析的毕设项目,数据使用是的北京二手房价数据, 该数据来源与学长写的网络爬虫,有需要的同学联系学长获取
🧿 选题指导, 项目分享:见文末
1 探索性分析与文本数据预处理
首先导入要使用的科学计算包numpy,pandas,可视化matplotlib,seaborn,以及机器学习包sklearn。
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib as mpl
import matplotlib.pyplot as plt
from IPython.display import display
plt.style.use("fivethirtyeight")
sns.set_style({
'font.sans-serif':['simhei','Arial']})
%matplotlib inline
# 检查Python版本
from sys import version_info
if version_info.major != 3:
raise Exception('请使用Python 3 来完成此项目')
然后导入数据,并进行初步的观察,这些观察包括了解数据特征的缺失值,异常值,以及大概的描述性统计。
# 导入链家二手房数据
lianjia_df = pd.read_csv('lianjia.csv')
display(lianjia_df.head(n=2))
初步观察到一共有11个特征变量,Price 在这里是我们的目标变量,然后我们继续深入观察一下。
# 检