大数据预测
不能吃的橘子
这个作者很懒,什么都没留下…
展开
-
小白自学——房价预测(一)
安装环境我用的是python3.6-64位。其次要安装几个包。下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/分别下载matplotlib、numpy、scipy、pandas根据各自的python版本选择下载相应的包然后在cmd用pip install XXXX(XXXX是安装包的名称,包含后缀,如:matplotlib‑3.0....原创 2018-10-11 22:35:15 · 353 阅读 · 0 评论 -
小白自学——房价预测(二)
数据准备https://www.kaggle.com/harlfoxem/housesalesprediction下载房屋价格和相关因素的数据包,数据包里有10000条train的数据和3000条的test数据。数据分别是第一列“销售日期”(date):2014年5月到2015年5月房屋出售时的日期;第二列“销售价格”(price):房屋交易价格,单位为美元,是目标预测值;第三列“卧室...原创 2018-10-11 23:01:48 · 1211 阅读 · 0 评论 -
小白自学——房价预测(三)
数据挖掘'''制定画布的大小'''plt.figure(figsize=(12, 6))'''绘制价格的数据分布曲线'''plt.subplot(211) #subplot的前两个参数是根据X、Y来划分画布,然后第三个参数是控制画布的位置plt.title('Price Distribution') #给曲线起标题sns.distplot(kc_train['price']) ...原创 2018-10-11 23:21:19 · 416 阅读 · 0 评论 -
小白自学——房价预测(四)
数值分析# 查看特征的统计信息kc_train.describe()这个是输出的结果。接下来,我们输出用**hist()**方法输出一下各个特征与房价的柱状图。# 绘制各个特征的分布柱状图kc_train.hist(figsize=(20, 15), bins=50, grid=False)plt.show()hist()的第一个参数控制的是每个柱状图的大小,figsize...原创 2018-10-12 11:25:09 · 644 阅读 · 1 评论 -
小白自学——房价预测(五)
数据分析(二)上一篇中连续变量影响房价的分布图中,我们可以注意到sqft_basement、yr_renovated都有存在很多为0的数据。为了更好的分析数据,我们可以考虑构建新的二值特征分别用来表示是否有地下室、是否曾翻新过。kc_train['basement_present'] = kc_train['sqft_basement'].apply(lambda x: 1 if x >...原创 2018-10-12 20:42:26 · 450 阅读 · 0 评论 -
小白自学——房价预测(七)
数据预处理这里我们会用到虚拟变量进行一个预处理。虚拟变量(dummy variable)是指用0或1来表示某个特定的分类是否存在的人工变量,这里我们对floors、grade做编码处理,将bedrooms和bathrooms看作是连续变量。ordinal_cols = ['floors', 'grade']for col in ordinal_cols: dummies = pd....原创 2018-10-18 14:45:49 · 412 阅读 · 0 评论