机器学习
Lanbocsdn
这个作者很懒,什么都没留下…
展开
-
机器学习概念理解
要进行机器学习,先要有数据。假定我们收集了一批关于西瓜的数据。例如(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆),……,每对括号是一条记录。这组记录的集合称为一个“数据集”(data set),其中每条记录是关于一个事件或对象(这里是一个西瓜)的描述,称为一个“示例”(instance)或“样本”(sample)。反映事件或对象原创 2017-10-29 21:21:37 · 738 阅读 · 0 评论 -
降维算法(PCA)
降维方法1、主成分分析(PCA) 在PCA中,数据从原来的坐标系转换到新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选择和第一个坐标轴正交且具有最大方差的方向。该过程一直重复,重复次数为原始数据中特征的数目。我们会发现,大部分方差都包含在最前面的几个新坐标轴中。因此,我们可以忽略余下的坐标轴,即对数据进行降维处理。2、因子分析(Fact原创 2017-10-30 11:30:47 · 14747 阅读 · 2 评论 -
贝叶斯分类器
原理: 通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。 贝叶斯公式: 案例: 挑战者B不知道原垄断者A是属于高阻挠成本类型还是低阻挠成本类型,但B知道,如果A属于高阻挠成本类型,那么B进入市场时A进行阻挠的概率为20%(此时A为了保持垄断带来的高利润,不计成本地拼命阻挠);如果A属于低阻挠成本类型,那B进入市场时,A原创 2017-10-25 11:24:18 · 549 阅读 · 0 评论 -
线性模型(linear model)
注:arg 是变元(即自变量argument)的英文缩写。arg min 就是使后面这个式子达到最小值时的变量的取值arg max 就是使后面这个式子达到最大值时的变量的取值形式:**f(**x)=w.x+b 参数解释: x:列向量,n维表示样本的n种特征 w:为每个特征对应的权重生成的权重向量 案例: 以房价与房屋面积的例子引出线性回归问题,首先定义一些符号: m:训练数据的原创 2017-10-24 17:21:04 · 10987 阅读 · 0 评论 -
决策树
构建决策树通常包括3个步骤:特征选择决策树生成决策树剪枝决策树的一般流程收集数据:可以使用任何方法准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化分析数据:可以使用任何方法,构造树完成之后,我们应该检查图形是否符合预期训练算法:构造树的数据结构测试算法:使用经验树计算错误率使用算法:可适用于任何监督学习算法,而使用决策树可以更好地理解数据的内在含义Python实原创 2017-11-02 21:31:40 · 605 阅读 · 0 评论 -
EDA To Prediction(DieTanic)
Contents of the NotebookPart1:探索性数据分析(EDA) 1)分析特征 2)发现多个特征之间的关系Part2:特征工程和数据清洗 1)加入少数特征 2)移除冗余特征 3)把特征转换为适合建模的格式Part3:预测建模 1)运行基础算法 2)交叉验证 3)集成学习 4)重要特征抽取详细介绍 Part1:探索性数据分析(EDA) 1)对train.csv原创 2017-11-13 17:07:58 · 507 阅读 · 0 评论 -
集成学习(ensemble learning)之AdaBoost
什么是集成学习? 它就是多算法融合,它的思想相当简单直接,以至于用一句俗语就可以完美概括:三个臭皮匠,顶个诸葛亮。实际操作中,集成算法把大大小小的多种算法融合在一起,共同协作来解决一个问题。这些算法可以使不同的算法,也可以是相同的算法。集成学习是通过构建并结合多个学习器来完成学习任务的。 工作流程: 1、先产生一组“个体学习器”。在分类问题中,个体学习器也称为基类分类器。 2、再使用某原创 2017-10-31 11:01:51 · 1126 阅读 · 0 评论 -
集成学习(ensemble learning)之RandomForest
Bagging算法原理 Bagging基于自主采样法(bootstrap sampling)。给定包含N个样本的训练数据集D,自助采样法是这样进行的:先从D中醉鸡取出一个样本放入采样集Ds中,再把该样本放回D中(有放回的重复独立采样)。经过N次随机采样操作,得到包含N个样本的采样集Ds。Bagging首先采用M轮自助采样法,获得M个包含N个训练样本的采样集。然后,基于这些采样集训练出一个基学原创 2017-11-01 14:40:58 · 1143 阅读 · 0 评论