自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

转载 关于特征工程的一些学习、思考与错误的纠正

特征工程的整体思路:1. 对于特征的理解、评估2. 特征处理:  2.1 特征处理    2.1.1 特征清洗      清洗异常、采样    2.1.2 预处理      单特征情况:归一化、离散化、哑变量编码、缺失值填充等。数据变换例如log服从正态分布。      多特征情况:        降维:PCA、LDA(这个不太了解、待学习)   ...

2018-07-03 15:54:00 123

转载 对于特征工程的一些简单总结(其一)

结合最近正做的蚂蚁金服比赛中遇到的小问题,以kaggle上的house prices competition的一篇kernel的特征工程处理为例子做一些简单的总结。house prices地址:https://www.kaggle.com/c/house-prices-advanced-regression-techniqueskernel地址:https://www.kaggl...

2018-05-18 15:37:00 120

转载 安装ubuntu系统及ubuntu安装Python的几点心得

一、安装ubuntu系统1.ubuntu系统是Linux系统的一种,和centos差别不大,但是个人还是建议大家安装ubuntu,它更适合国内使用习惯,换句话说更亲切。2.安装方法不再赘述,网上有很多教程,我遇到的一个问题是联想BIOS一定要关闭security boot,否则u盘都找不到。3.安装完毕后首要的任务是熟悉终端命令行,shell语法,文件夹和文件的各种操作,vi...

2018-05-17 11:39:00 145

转载 ubuntu系统下使用终端安装guake出现错误的解决办法

在网上查到的解决办法。使用以下命令安装guake时:sudo apt-get install guake如果出现错误:E: 无法获得锁 /var/lib/dpkg/lock - open (11: 资源暂时不可用)E: 无法锁定管理目录(/var/lib/dpkg/),是否有其他进程正占用它?可在终端输入如下代码sudo rm /var/c...

2018-05-16 10:13:00 150

转载 kaggle入门项目:Titanic存亡预测(五)验证与实现

原kaggle比赛地址:https://www.kaggle.com/c/titanic原kernel地址:A Data Science Framework: To Achieve 99% Accuracy首先我们绘制出皮尔森系相关度的热力图,关于皮尔森系数可以翻阅资料,是一个很简洁的判断相关度的公式。终于要进行最终的模型拟合了,我们使用投票法则,首先构建一个投票算法的l...

2018-05-10 15:30:00 192

转载 kaggle入门项目:Titanic存亡预测(四)模型拟合

原kaggle比赛地址:https://www.kaggle.com/c/titanic原kernel地址:A Data Science Framework: To Achieve 99% AccuracyStep 5: Model Data数据科学是交叉学科,我们仅仅称他为计算机科学的一部分是有失公正的,它包含了数学,cs,商业管理,统计学等等方向。机器学习被分为监督学...

2018-05-10 10:17:00 296

转载 kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析

---恢复内容开始---原kaggle比赛地址:https://www.kaggle.com/c/titanic原kernel地址:A Data Science Framework: To Achieve 99% AccuracyStep 4: Perform Exploratory Analysis with Statistics使用描述性与图表分析数据,重点在于数据可...

2018-05-07 16:16:00 215

转载 kaggle入门项目:Titanic存亡预测(二)数据处理

原kaggle比赛地址:https://www.kaggle.com/c/titanic原kernel地址:A Data Science Framework: To Achieve 99% Accuracy问题处理之前要知道的事:数据科学框架(A Data Science Framework)1.定义问题(Define the Problem):问题→需求→方法→设计...

2018-04-30 13:24:00 211

转载 kaggle入门项目:Titanic存亡预测 (一)比赛简介

自从入了数据挖掘的坑,就在不停的看视频刷书,但是总觉得实在太过抽象,在结束了coursera上Andrew Ng 教授的机器学习课程还有刷完一整本集体智慧编程后更加迷茫了,所以需要一个实践项目来扎实之前所学的知识。于是就参考kaggle上的starter项目Titanic,并选取了kernel中的一篇较为祥尽的指南,从头到尾实现了一遍。因为kaggle入门赛相关方面的参考和指导非常少,因...

2018-04-25 10:24:00 168

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除