数据挖掘
MachineLP
成功收获成果,失败收获智慧,投入收获快乐!
展开
-
Python 数据分析包:pandas 基础
摘要pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的 。Series 和 DataFrame 分别对应于一维的序列和二维的表结构。panda转载 2016-07-03 16:08:15 · 5852 阅读 · 0 评论 -
kaggle数据挖掘竞赛初步--Titanic<派生属性&维归约>
为什么有的机器学习项目成功了有的却失败了呢?毕竟算法是有限的改进也是有限的,最主要的因素就是特征的选择了。如果我们有一些与类别非常相关同时又相互独立的特征,学习起来是很容易的,相反就不一定了。通常情况下,并不是直接把原始数据作为特征,而是从中构建一些特征。这是机器学习中的主要工作。在这一步骤中,通常直觉、创造性、魔法和技术一样重要。当然,机器学习的一个终极目标就是将特征工程过程越来越多地自动化转载 2016-06-28 10:20:12 · 1391 阅读 · 0 评论 -
kaggle数据挖掘竞赛初步--Titanic<随机森林&特征重要性>
之前的三篇博文已经进行了一次还算完整的特征工程,分析字符串类型的变量获取新变量,对数值变量进行规范化,获取派生属性并进行维规约。现在我们已经有了一个特征集,可以进行训练模型了。由于这是一个分类问题,可以使用L1 SVM 随机森林等分类算法,随机森林是一个非常简单而且实用的分类模型,可调的变量很少。它的一个非常重要的变量是树的个数,树的个数增加到一定大小后会使耗时加大,但是精度不会增加很多。转载 2016-06-28 10:21:20 · 3499 阅读 · 0 评论 -
kaggle数据挖掘竞赛初步--Titanic<数据变换>
缺失值填充之后,就要对其他格式有问题的属性进行处理了。比如Sex Embarked这些属性的值都是字符串类型的,而scikit learn中的模型都只能处理数值型的数据,需要将这些原始的字符串类型的数据转为数值型数据。所有数据通常可以分成两种类型:定量与定性。定量的属性(数值属性)通常蕴涵着可排序性,比如在泰坦尼克号数据集中,年龄就是一个定量属性。定性属性(标称 序数 二元属性)的值是一些符号或事转载 2016-06-28 10:18:45 · 1054 阅读 · 0 评论 -
kaggle数据挖掘竞赛初步--Titanic<原始数据分析&缺失值处理>
Titanic是kaggle上的一道just for fun的题,没有奖金,但是数据整洁,拿来练手最好不过啦。这道题给的数据是泰坦尼克号上的乘客的信息,预测乘客是否幸存。这是个二元分类的机器学习问题,但是由于数据样本相对较少,在当时慌乱的情况下幸存者有一定的随机性,还是有一定挑战的。https://www.kaggle.com/c/titanic-gettingStarted/ 一 载入数转载 2016-06-27 16:32:52 · 2338 阅读 · 0 评论