python3 数据分析项目案例,python数据分析案例教程

最新推荐文章于 2024-06-09 02:41:05 发布

gpt886

最新推荐文章于 2024-06-09 02:41:05 发布

阅读量858

点赞数 21

文章标签： java

本文链接：https://blog.csdn.net/2301_79533350/article/details/135351534

版权

这篇文章主要介绍了python3 数据分析项目案例，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。

作者：xiaoyu

微信公众号：Python数据科学

知乎：python数据分析

非经作者允许，禁止任何商业转载。

目的：本篇给大家介绍一个数据分析的初级项目，目的是通过项目了解如何使用Python进行简单的数据分析如何用python画不同大小的满天星。

数据源：博主通过爬虫采集的链家全网北京二手房数据（公众号后台回复 二手房数据 便可获取）。

数据初探

数据可视化分析

总结

数据初探

首先导入要使用的科学计算包numpy，pandas，可视化matplotlib，seaborn,以及机器学习包sklearn。

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib as mpl

import matplotlib.pyplot as plt
from IPython.display import display
plt.style.use("fivethirtyeight")
sns.set_style({'font.sans-serif':['simhei','Arial']})
%matplotlib inline


# 检查Python版本
from sys import version_info
if version_info.major != 3:
    raise Exception('请使用Python 3 来完成此项目')

然后导入数据，并进行初步的观察，这些观察包括了解数据特征的缺失值，异常值，以及大概的描述性统计。

# 导入链家二手房数据
lianjia_df = pd.read_csv('lianjia.csv')
display(lianjia_df.head(n=2))

初步观察到一共有11个特征变量，Price 在这里是我们的目标变量，然后我们继续深入观察一下。

# 检查缺失值情况
lianjia_df.info()

发现了数据集一共有23677条数据，其中Elevator特征有明显的缺失值。

lianjia_df.describe()

上面结果给出了特征值是数值的一些统计值，包括平均数，标准差，中位数，最小值，最大值，25%分位数，75%分位数。这些统计结果简单直接，对于初始了解一个特征好坏非常有用，比如我们观察到 Size 特征的最大值为1019平米，最小值为2平米，那么我们就要思考这个在实际中是不是存在的，如果不存在没有意义，那么这个数据就是一个异常值，会严重影响模型的性能。

当然，这只是初步观察，后续我们会用数据可视化来清晰的展示，并证实我们的猜测。

# 添加新特征房屋均价
df = lianjia_df.copy()
df['PerPrice'] = lianjia_df['Price']/lianjia_df['Size']

# 重新摆放列位置
columns = ['Region', 'District', 'Garden', 'Layout', 'Floor', 'Year', 'Size', 'Elevator', 'Direction', 'Renovation', 'PerPrice', 'Price']
df = pd.DataFrame(df, columns = columns)

# 重新审视数据集
display(df

最低0.47元/天解锁文章

gpt886

关注

21
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
python3 数据分析项目案例,python数据分析案例教程

本次分享旨在让大家了解如何用Python做一个简单的数据分析，对于刚刚接触数据分析的朋友无疑是一个很好的练习。解决爬虫获取的数据源准确度问题；需要爬取或者寻找更多好的售房特征；需要做更多地特征工程工作，比如数据清洗，特征选择和筛选；使用统计模型建立回归模型进行价格预测；Python数据科学。
复制链接

扫一扫