机器学习
文章平均质量分 88
风-之-谷
这个作者很懒,什么都没留下…
展开
-
k近邻算法及python实现
k近邻算法是机器学习中最简单的一种算法,简单粗暴,给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,把这K个实例中出现最多的类作为输入实例的类。对于初学者可能会好奇,这个最近邻是什么意思?例如调查一群人的信息,会对研究目标调查多个特征,例如人的头发长度、身高、年龄、体重、肤色,性别,对这些特征采用数值进行刻画。假设现在我们需要通过头发长度、身高、年龄、体重和肤色来判断原创 2016-12-19 18:01:06 · 2469 阅读 · 0 评论 -
Logistics回归
1.什么是Logistics?Logistics回归虽然后缀回归,但是不属于回归算法,而是分类算法。该算法通过在样本空间中寻找一个分类超平面,将正负样本分别分到互不相交的两个子空间中。2、算法公式推导数据准备:logistics算法需要使用数值型数据,对于标称型数据需要转换为数值型数据,为了加速收敛,通常会对原始数据进行标准化。它是对感知机算法的一种改良版,感知机算法的模型原创 2017-04-30 16:21:53 · 5418 阅读 · 3 评论 -
SVM算法
区别:将数据切分开的分离超平面存在无数个,一般的算法是随机选取其中的一个,同一个算法,运行多次,多次得到的结果可能会不一致。SVM算法追求寻找一个分离超平面能够将数据切分,同时这个分离超平面距离数据点中最近的点要尽可能远。而距离切分超平面的距离表示了分类的确信程度,寻找间隔最大的超平面即是以最大确信程度将所有数据分类。点到分离超平面的距离为:y=y1(W.X+b)定义超平面到数据集的距原创 2017-01-11 11:31:59 · 500 阅读 · 0 评论 -
KMeans聚类算法
1、什么是聚类 所谓聚类就是将一组对象按照特征划分不为的小组,使得组内的差异性尽可能的小,组间的差异尽可能的大。例如,粗粒度的分类,按照学校实力,分为985、211高校,普通一本高校,二本高校,三本高校。如果再更加细的分类,一个学校里面会按照所修的课程差异性分为不同学院,不同专业,这些同学院的专业课相差较小,不同的学院的课程相差就很大了。2、聚类与分类的区别 分类算原创 2017-05-07 14:06:22 · 6442 阅读 · 1 评论 -
决策树算法
1、什么是决策树? 决策树是一种树形的判定结构,从根节点到每个叶节点是一个完整的判定路径。每个分支节点会对样本的某一个特征进行检测,将样本分配到子节点中,不同子节点对应着不同的特征取值。当一个预测样本进来时,从树根开始,检测样本的特征,按照取值传到对应子树中,在子树中进行同样的操作,这样一级一级最后到达叶子节点,次叶子节点的类标记或者取值则为最后的预测结果。 相当于使用数据的特原创 2017-05-03 15:03:03 · 562 阅读 · 0 评论 -
朴素贝叶斯算法
1、从贝叶斯到朴素贝叶斯 贝叶斯公式如下: 通过先验概率求后验概率 P(A)被称为先验概率,是已经给出的或者通过现有数据统计可以求出的,对A出现概率的一个大胆估计。P(B|A)/P(B)可以理解为一个实验,即满足某种现实状况,是对这个贝叶斯估计的一个修正因子。P(A|B)被称为后验概率,即满足某种事实条件的概率。 对应到机器学习...原创 2017-05-01 14:59:55 · 590 阅读 · 0 评论