![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Data Science
machine learning, statistic knowledgement.
Jim_Sun_Jing
这个作者很懒,什么都没留下…
展开
-
python爬取airbnb房屋信息
1. 必要的库import requestsimport reimport jsonimport urllibimport pymysql # 为了连接mysqlfrom time import sleep2. 前期准备2.1 通过浏览器抓包原创 2019-12-09 15:35:12 · 1772 阅读 · 1 评论 -
减少pandas数据集所占内存
减少pandas数据集所占内存在kaggle竞赛中,经常会遇到几百甚至上千M的数据,如果用pandas的read_csv直接读取,数据类型一般会被默认为float64或float32,最终导致内存占用太多,计算处理速度变慢或程序被迫停止。可以使用以下函数对其内存进行缩减,删去不必要的数据。from pandas.api.types import is_datetime64_any_dtype...转载 2019-11-22 09:00:49 · 422 阅读 · 0 评论 -
使用《Programming Collective Intelligence》中的决策树建模训练kaggle——Titanic预测模型
使用Collective Intelligence 中的决策树建模训练kaggle titanic预测模型原创 2019-06-06 18:55:14 · 255 阅读 · 0 评论 -
使用scipy.stats.boxcox完成BoxCox变换
Why为何要使用box-cox变换?原因如下:在做线性回归的过程中,一般线性模型假定有:Y=Xβ+ϵ,ϵ∼N(0,δ2I)Y=X\beta+\epsilon,\epsilon \sim N(0,\delta^2I)Y=Xβ+ϵ,ϵ∼N(0,δ2I)线性性:E(Y)是X中各变量的线性函数独立性:ϵ1,ϵ2...ϵn\epsilon_1,\epsilon_2...\epsilon_nϵ1...原创 2019-09-09 17:39:48 · 9904 阅读 · 2 评论