Python机器学习第一章-(线性回归)

本文是Python机器学习的初步介绍,通过线性回归解决租房价格预测问题。利用Pandas和Numpy处理数据,包括数据清洗、特征选择,并使用statsmodels建立线性回归模型,探讨卧室数量和邮政编码对租金的影响。通过数据可视化展示模型效果,为初学者提供了机器学习的基本框架。
摘要由CSDN通过智能技术生成

Python机器学习第一章-(线性回归)

这次我们通过python的一些库来研究一下机器学习,至于什么是机器学习,网上写的东西很多,也很杂,具体是啥我们通过后面的教程来看一下。Pandas和Numpy是学习机器学习的前提,不熟悉的同学可以先找一些教程学习,本人后续也会更新Pandas和Numpy的教程。
    
    这一章我们的目标是如何找到一个适合自己的出租房。。。
相信大多数人都遇到过找房的尴尬,无数的坑蒙拐骗和奔波,今天我们尝试用机器学习来解决这个问题。
数据源
Chapter 1中的magic.csv就是我们的数据了
检查一下数据

import pandas as pd
import numpy as np
import re
import matplotlib.pyplot as plt
plt.style.use("ggplot")
CSV_PATH = r"/Users/GLdata/magic.csv"
df = pd.read_csv(CSV_PATH)
df.head()

我们看一下这个dataframe究竟啥样子
在这里插入图片描述
这只是图片的一部分,右侧还有不少列。
我们瞧瞧这些列都有啥

df.columns
len(df.columns)

在这里插入图片描述
一共有23个列,当然了不是所有的列我们都用得上,而且有不少缺失值(NaN)
我们注意到一个参数“listingtype_value”,这个列的值只单一单元有“Apartment for Rent”和多个单元“Apartments for Rent”
在这里插入图片描述
我们看一下这两个房源类型的数量

mu = df[df["listingtype_value"].str.contains("Apartments For")]
len(mu)
su = df[df["listingtype_value"].str.contains("Apartment For")]
len(su)

在这里插入图片描述
大多数的房源属于单一单元的类型,接下来我们将数据格式化为标准结构,至少需要把“卧室数”,“面积”,“浴室数”,“地址”标准化
我们发现,上面我们说的几个数据基本都在“pricelarge_value_prices”中。
而且这列数据没有缺失值,先来看一下这列数据吧。

su["propertyinfo_value"]

在这里插入图片描述
为了在图片占的少一点,我把该数据经过了转置,当然各位在操作的过程中不比进行这一步。
看上去这个列有卧室和浴室的数量,偶尔也有年份这样的额外信息。
检查一下没有包含“bd”或“Studio”的行数,和没有“ba”的行数

len
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值