机器学习
文章平均质量分 82
echo__Moon
这个作者很懒,什么都没留下…
展开
-
机器学习笔记三------支持向量机
给定训练集D,在样本空间上找到最鲁棒的超平面,将不同类别的样本分开。对于线性可分问题,超平面的线性方程为,样本空间内任一点x到平面的距离为。若超平面分类正确,则对应y=+1为正类,否则y=-1。距离超平面最近的几个样本称为支持向量,两个异类支持向量到超平面的距离之和为,称为间隔。优化目标:找到参数w和b在划分正确的前提下使得间隔最大,即 上述问题等价于:原创 2017-11-25 18:13:57 · 236 阅读 · 0 评论 -
机器学习笔记四------集成学习
集成学习(ensenmblelearning)构建并结合多个学习器来学习,常可获得比单一学习器显著优越的泛化性能。PAC(概率近似正确)定义:弱学习器为泛化性能略高于随机猜测的学习器,强学习器指的是识别准确率高并且能在多项式时间内完成的学习器。集成学习可将多个弱学习器结合以达到强学习器的效果。对于集成学习中,个体学习器要有一定的准确性(至少不差于弱学习器)并且要有多样性,即学习期间有差异,然而准确原创 2017-11-28 20:37:06 · 426 阅读 · 0 评论 -
机器学习常用python语句总结
# 导入pandas用于数据分析import pandas as pd# 导入numpy,并命名为 npimport numpy as np# 利用pandas的read_csv模块传入数据文件地址,并返回数据(dataframe格式)保存到data,测试数据可同样读取或从中分割,见下面data = pd.read_csv('../Datasets/Breast-Can原创 2017-11-19 18:38:46 · 501 阅读 · 0 评论 -
机器学习笔记一------线性分类器
线性模型,使用最小二乘参数估计使模型预测结果与实际结果y之间的均方误差最小,得到参数w和b(其中b可以算作w的最后一列,对应属性值恒置为1)。线性模型形式简单,易于建模,引入层级结构或高维映射后可得到更为抢到的非线性结构。)为广义线性模型,有加权最小二乘法或极大似然法进行参数估计。对于二元分类问题,y的取值为0或1,假设不同类别训练样本数目相同,当预测的y值大于0.5认证为正,反之为负,y原创 2017-11-25 15:10:46 · 827 阅读 · 0 评论 -
机器学习笔记二------决策树
一颗决策树包含一个根结点,若干内部结点(对应一个测试属性)和若干叶结点(对应决策结果)。决策流程采用分而治之的整体思想,根结点包含样本全集,对各个特征进行判断,直至所有叶结点均对应一种类别的样本。决策树的关键在于划分属性的选择,随着划分不断进行,分支结点所包含样本应尽可能属于同一类别,即纯度越来越高,有三种划分属性选择指标:(1) 信息增益Gain(D,a)= H(D)-H(D|a):以原创 2017-11-25 16:42:53 · 350 阅读 · 0 评论 -
逻辑回归的常见面试点
转自:http://www.cnblogs.com/ModifyRong/p/7739955.html1.简介 逻辑回归是面试当中非常喜欢问到的一个机器学习算法,因为表面上看逻辑回归形式上很简单,很好掌握,但是一问起来就容易懵逼。所以在面试的时候给大家的第一个建议不要说自己精通逻辑回归,非常容易被问倒,从而减分。下面总结了一些平常我在作为面试官面试别人和被别人面试的时候,经常遇到...转载 2018-08-24 18:13:27 · 927 阅读 · 0 评论 -
GBDT常见面试点
转自:https://www.cnblogs.com/ModifyRong/p/7744987.html1.简介 gbdt全称梯度下降树,在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一,在前几年深度学习还没有大行其道之前,gbdt在各种竞赛是大放异彩。原因大概有几个,一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征。这三点实在是太吸引人了,导致...转载 2018-08-24 18:32:14 · 2367 阅读 · 0 评论 -
SVM的常见面试点
支持向量机(supportvector machine ,SVM)是一种二类分类模型.它的基本模型是定义在特征空间上的能够正确划分训练数据集并且几何间隔最大的线性分类器。支持向量机还包括核技巧,这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题,支持向量机的学习算法是求解凸二次规划的最优化算...原创 2018-09-11 16:49:44 · 7378 阅读 · 0 评论