机器学习
文章平均质量分 73
maershii
这个作者很懒,什么都没留下…
展开
-
【机器学习】集成学习+代码实现
1. 概念与分类集成学习(ensemble learning)构建并结合多个学习器,先学习基学习器,再根据某种策略结合起来。结合可以是:①集成不同算法;②集成同一算法不同设置;③数据集分成多部分分给不同分类器的集成。分类:bagging, boosting2. bagging概念:采用bootstraping sampling的有放回的自助采样方法。假设原数据集N个样本,随...原创 2018-12-10 20:41:19 · 8325 阅读 · 0 评论 -
【机器学习】分类器性能指标
1. 错误率:e = 错误分类个数/总样本数2. 正确率:TP:分类正确正例TN:分类正确负例FP:分类错误正例FN:分类错误负例precision = 分类正确的正类/(预测结果中被分为正类的个数) = TP/(TP+FP)3. 召回率:recall = 分类正确的正类/(所有正类的个数) = TP/(TP+FN)4. F1 score5. RO...原创 2018-12-10 09:45:04 · 1050 阅读 · 0 评论 -
【机器学习】为什么负梯度方向是目标函数下降最快的方向
在机器学习中,我们的目标是最小化损失函数: J(θ)J(\mathbf {\theta})J(θ)。为了快速得到最佳的参数θ\mathbf {\theta}θ,我们需要找到损失函数下降最快的方向,即找到一个θ\thetaθ移动的方向v\mathbf{v}v, 使得J(θ)−J(θ+v)J(\theta) - J(\mathbf{\theta + v})J(θ)−J(θ+v) 最大。公式描述为:v...原创 2018-12-20 18:23:11 · 2293 阅读 · 0 评论 -
【机器学习】SVM基础知识+代码实现
1. 基本知识二分类:通过分离超平面对数据点进行分类,训练分离超平面。原理:最大化支持向量到分离超平面的距离。支持向量:离分离超平面最近的点。2. 完全线性可分(硬间隔)2.1 SVM基本型分离超平面:。(训练中更新w和b,或alpha,使得分离超平面分类效果最佳)某点到分离超平面的函数距离:某点到分离超平面的几何距离:, ||w||为w的L2范数。点集到分离...原创 2018-12-06 16:44:44 · 1288 阅读 · 0 评论 -
【机器学习】KNN基本介绍+代码实现
1.基本概念k近邻算法:通过测量待预测点和已知点的特征值之间的距离,选取前k个距离近的,根据多数表决的方法来分类。训练过程:无训练过程。测试过程:根据距离来分类。k越小,模型越复杂,越容易过拟合。需要对各个属性(特征)进行归一化,防止数值较大的属性对分类器的影响过大。2. 优缺点优点:精度高,异常值不敏感,对输入格式无要求。缺点:时间空间复杂度高。无法给出数据的基础...原创 2018-11-27 19:04:35 · 280 阅读 · 0 评论 -
【机器学习】CART分类决策树+代码实现
1. 基础知识CART作为二叉决策树,既可以分类,也可以回归。分类时:基尼指数最小化。回归时:平方误差最小化。数据类型:标值型,连续型。连续型分类时采取“二分法”, 取中间值进行左右子树的划分。2. CART分类树特征A有N个取值,将每个取值作为分界点,将数据D分为两类,然后计算基尼指数Gini(D,A), 选择基尼指数小的特征A的取值。然后对于每个特征在计算基尼指数,最后...原创 2018-11-30 13:22:23 · 7170 阅读 · 0 评论 -
【机器学习】朴素贝叶斯基本介绍+代码实现
1. 基本概念根据先验概率和似然函数来求后验概率。一般用于分类任务。 先验概率:似然函数:后验概率:根据条件独立性假设:目标函数:即求解使后验概率最大的类。训练过程:即求各个单词的条件概率,和类别的先验概率。测试过程:根据已经得到的条件概率和先验概率,计算不同类别的后验概率,取最大的类。2. 优缺点优点:简单,易于实现。缺点:由于条件独立性假...原创 2018-11-26 22:07:48 · 2721 阅读 · 1 评论 -
【机器学习】逻辑回归基础知识+代码实现
1. 基本概念逻辑回归用于二分类,将对输入的线性表示映射到0和1之间,输出为label为1的概率。优点:实现代价低,可输出分类概率。适用于数据线性不可分。缺点:容易欠拟合,分类精度可能不高,且仅限二分类。使用数据类型:数值型和标称数据。逻辑回归本质也是线性回归,但是是将线性回归映射到0/1分类上,因此逻辑回归用于分类。2. 公式推导单个输入样本为 ,第一项为1是为了直接...原创 2018-12-04 11:41:35 · 949 阅读 · 0 评论 -
【机器学习】分类决策树基本介绍+代码实现
参考:https://blog.csdn.net/u012351768/article/details/734698131.基础知识基于特征对实例进行分类。优点:复杂度低,输出结果易于理解,缺失中间值不敏感,可处理不相关特征数据。缺点:过度匹配。适用数据类型:标称和数值型。(数值型需要离散化)构建决策树时,在每次分支时都要选择最能区分数据的特征。2.划分数据集依据2...原创 2018-11-29 13:41:55 · 3544 阅读 · 0 评论 -
【机器学习】线性回归+代码实现
参考:《机器学习实战》源码地址以及数据:https://github.com/JieruZhang/MachineLearninginAction_src1. 标准线性回归(LR)y=Xw+b\mathbf{y} = \mathbf{X}w + by=Xw+b平方误差:∑i=1m(yi−xiTw)2平方误差:\sum_{i=1}^m (y_i - x_i^Tw)^2平方误差:i=1∑m(...原创 2018-12-12 12:00:59 · 15399 阅读 · 3 评论