Python机器学习第一章-(线性回归)

最新推荐文章于 2021-02-28 23:58:37 发布

文件输传手助

最新推荐文章于 2021-02-28 23:58:37 发布

阅读量948

点赞数

分类专栏：机器学习文章标签： python机器学习

本文链接：https://blog.csdn.net/weixin_43074152/article/details/93463930

版权

本文是Python机器学习的初步介绍，通过线性回归解决租房价格预测问题。利用Pandas和Numpy处理数据，包括数据清洗、特征选择，并使用statsmodels建立线性回归模型，探讨卧室数量和邮政编码对租金的影响。通过数据可视化展示模型效果，为初学者提供了机器学习的基本框架。

摘要由CSDN通过智能技术生成

Python机器学习第一章-(线性回归)

这次我们通过python的一些库来研究一下机器学习，至于什么是机器学习，网上写的东西很多，也很杂，具体是啥我们通过后面的教程来看一下。Pandas和Numpy是学习机器学习的前提，不熟悉的同学可以先找一些教程学习，本人后续也会更新Pandas和Numpy的教程。
　　　　
　　　　这一章我们的目标是如何找到一个适合自己的出租房。。。
相信大多数人都遇到过找房的尴尬，无数的坑蒙拐骗和奔波，今天我们尝试用机器学习来解决这个问题。
数据源
Chapter 1中的magic.csv就是我们的数据了
检查一下数据

import pandas as pd
import numpy as np
import re
import matplotlib.pyplot as plt
plt.style.use("ggplot")
CSV_PATH = r"/Users/GLdata/magic.csv"
df = pd.read_csv(CSV_PATH)
df.head()

我们看一下这个dataframe究竟啥样子
在这里插入图片描述
这只是图片的一部分，右侧还有不少列。
我们瞧瞧这些列都有啥

df.columns
len(df.columns)

在这里插入图片描述
一共有23个列，当然了不是所有的列我们都用得上，而且有不少缺失值（NaN）
我们注意到一个参数“listingtype_value”，这个列的值只单一单元有“Apartment for Rent”和多个单元“Apartments for Rent”

我们看一下这两个房源类型的数量

mu = df[df["listingtype_value"].str.contains("Apartments For")]
len(mu)
su = df[df["listingtype_value"].str.contains("Apartment For")]
len(su)

在这里插入图片描述
大多数的房源属于单一单元的类型，接下来我们将数据格式化为标准结构，至少需要把“卧室数”，“面积”，“浴室数”，“地址”标准化
我们发现，上面我们说的几个数据基本都在“pricelarge_value_prices”中。
而且这列数据没有缺失值，先来看一下这列数据吧。

su["propertyinfo_value"]

在这里插入图片描述
为了在图片占的少一点，我把该数据经过了转置，当然各位在操作的过程中不比进行这一步。
看上去这个列有卧室和浴室的数量，偶尔也有年份这样的额外信息。
检查一下没有包含“bd”或“Studio”的行数,和没有“ba”的行数

len

最低0.47元/天解锁文章

文件输传手助

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Python机器学习第一章-(线性回归)

Python机器学习第一章-(线性回归)这次我们通过python的一些库来研究一下机器学习，至于什么是机器学习，网上写的东西很多，也很杂，具体是啥我们通过后面的教程来看一下。Pandas和Numpy是学习机器学习的前提，不熟悉的同学可以先找一些教程学习，本人后续也会更新Pandas和Numpy的教程。　　　　　　　　这一章我们的目标是如何找到一个适合自己的出租房。。。相信大多数人都遇到过找...
复制链接

扫一扫

专栏目录