pandas:简单的房价预测实例
我们使用pandas等工具,对于给出的.csv文件进行处理,完成要求的几个Task。
利用sklearn的线性回归,对于房价进行简单的预测。
所有的要求,数据集等文件,请到我的GitHub仓库自行下载:github.com/rongyupan/HousePricePred
**如果你是pandas这类数据分析工具的新手,那这个项目很适合你。**因为这个项目只需要用到最基本,最简单的操作。
数据集描述
transactions.csv数据集是我们的主要数据集;agents.csv和agency.csv保存了agents和agency之间的关系,也就是每个agency下具体是哪几个agents。
下面我们针对每个task,对于使用到的函数,以及解决的思路进行一下简单的总结。
自己的经验
1.尽量使用pandas自带的函数进行处理
比如统计数量、平均、求和这种操作,使用自带的函数比自己写循环要靠谱。
可以这样理解:pandas更像python版的excel。在使用excel要对行/列求和之类的操作时,你会自己重写一个函数吗?
基本上在excel里可以用鼠标点击完成的,大部分在pandas中有内置函数对应。
2. 先对数据表进行增删改
如果想要遵照经验1,你会发现有时候直接对原始的数据表操作不可行,这时候就要对数据表进行筛选。
在完成下面每个task之前,几乎都需要对于数据表进行增删改,增加/删除/改动某几列。
我们改动数据表的目的就是为了更好地完成经验1。
数据集导入