机器学习
文章平均质量分 50
夏末的初雪
知乎id: 迷路森林
展开
-
集成学习---AdaBoost算法
按照下面思路介绍集成学习中的AdaBoost算法 –集成学习基本知识 –Boosting –AdaBoost算法 –分类器权重更新公式推导 –样本分布更新公式推导原创 2017-01-31 17:31:03 · 446 阅读 · 0 评论 -
模型评估与选择
在机器学习中,我们应该如何去评估我们的学习模型的学习效果,这自然就涉及到了模型评估与选择的问题。我们希望,学习模型能够从训练样本中尽可能学出使用于所有潜在样本的“普遍规律”,这样才能在遇到新样本时做出正确的判别。然后,当学习器把训练样本学的“太好”的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致学习模型的泛化性能下降,这种现象在机器学习中称为“过拟合”。相原创 2017-02-01 13:58:52 · 648 阅读 · 0 评论 -
集成学习---随机森林
Bagging随机森林(Random Forest,简称RF)是Bagging的一个扩展变体。Bagging在1996年由Beriman提出,作为并行式集成学习方法中最著名的代表,利用自助采样法。可采样出T个含m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些基学习器进行结合。这就是Bagging的基本路程。对分类任务使用简单投票法,对回归任务简单平均。 随机森林(RF)RF在以原创 2017-02-02 11:53:22 · 2713 阅读 · 0 评论 -
集成学习---如何增强个体学习器的多样性
简单地利用初始数据训练出的个体学习器多样性一般比较差,我们可以在学习过程中利用对数据样本、输入属性、输出表示、算法参数进入扰动引入随机性来增强个体学习器的多样性。数据样本扰动数据样本扰动对“不稳定基学习器”很有效,这样的“不稳定基学习器”主要有决策树、神经网络。训练样本稍微有些变化就会导致学习器有显著的变动。而有些基学习器对数据样本的扰动是不敏感的,比如线性学习器、支持向量机、朴素贝叶斯、K近邻学习原创 2017-02-03 11:35:07 · 4776 阅读 · 0 评论 -
支持向量机
支持向量机自己就是一个很大的一块,尤其是SMO算法,列出来也有满满几页纸的样子,虽然看过但是并不能完全看懂其中精髓。所以本着学习的态度来对比的学习一下支持向量机和支持向量回归。原创 2017-07-10 17:28:53 · 407 阅读 · 0 评论 -
支持向量回归
支持向量回归和传统的回归模型的区别:就拿最简单的线性回归来讲,通过模型输出的f(x)与真实输出的y值之间的差别来计算损失。而SVR假设模型输出f(x)与真实的y值之间可以容忍有eps大小的偏差,也就意味只要样本的预测值落在f(x)两侧在y轴方向上绝对值只差小于eps的间隔带上就是预测正确的。我们去用一个f(x)=wtx+b来拟合真实数据,就会遇到欠拟合和过拟合两个问题。对于线性回归或逻原创 2017-07-11 21:40:06 · 7301 阅读 · 0 评论 -
GeoHash 经纬度坐标编码与解码算法
关于GeoHash的了解是我在做爬虫时发现一些网站比如美团、饿了么都会把一些地理位置进行编码,在检索时能够更快的进行地理空间上的检索,找到距离相近的位置。GeoHash 原理将二维的经纬度坐标点转换为一维的字符串,也就是编码,某一个字符串表示了某一个矩形区域,也就是说在这个矩形区域中的所有经纬度点都共享一套编码也就是字符串。 内部的实现采用的是GeoHash算法,其实质其实是二分法。 纬度范围在原创 2017-09-08 12:44:10 · 18640 阅读 · 7 评论 -
朴素贝叶斯模型
朴素贝叶斯模型基于贝叶斯公式 来估计后验概率 ,但是整个公式里最困难的部分就是对 的估计。可以分为下面几种情况来进行讨论。–基于属性条件独立性假设 对后验概率的估计可写为 由于分布对所有的c来讲都是相同的,所以对样本x的分类是取决于分子的大小的。 离散属性 连续属性 对于连续属性,可以考虑概率密度函数,假定 其中 和 分别代表的是第c类样本在第i个属性上取值的均值和方差。原创 2017-10-05 18:08:34 · 377 阅读 · 0 评论 -
经验风险、结构风险、正则项
我们所学习到的所有的学习模型都会有一个共同的优化目标: 其中, 称为“结构风险”描述的是模型f的某些性质。 是经验风险,描述的是模型与训练数据的契合程度,C用于对二者进行折中。经验风险经验风险针对不同的学习模型有不同的计算方法。 平方损失–线性回归 0-1逻辑损失–逻辑回归 hinge损失–支持向量机 指数损失–AdaBoost 结构风险 又被称为正则化项,C被称原创 2017-10-05 23:56:08 · 2444 阅读 · 0 评论 -
线性回归,LWLR,岭回归,逐步线性回归
我们之前说到了逻辑回归的分类,主要是二值分类的情况,通过训练权值来获得两个类别的分界线。而线性回归模型用于拟合现有的数据用来进行预测,回归的目的是预测数值型的目标值。这里我们为了拟合现有的数据训练出的系数称作为回归系数。一旦有了这些回归系数,再给定输入,然后再进行预测。回归一般指的是线性回归,意味着可以将输入项分别乘以一些常量,再将结果加起来得到输出,这是线性回归进行的前提,当前非线性回归的回归模型不认同上面的做法,输出可能是输入的乘积。原创 2017-01-29 18:12:45 · 723 阅读 · 0 评论 -
逻辑回归模型推导及梯度下降
这里的逻辑回归模型,除了重要要放在回归上,还要看到逻辑,所谓的逻辑其实就是正确和错误,因而建立的是分类模型。主要的思想是:根据现有数据对分类边界线建立回归公式,以此来进行分类。而这里的“回归”也是拟合的意思,只不过这里的拟合是找到分类边界线最佳拟合参数集,从而根据分类边界进行分类。原创 2017-01-29 13:17:42 · 913 阅读 · 0 评论 -
从Beta分布、Dirchlet分布到LDA主题模型
数学真心不太好呢,但是自己挖的坑就算是哭着也要填完,就像是双11下的单,吃土也得付款。。打算从Beta分布开始讲起,大白话开始:我们反复抛一枚硬币,假设我们不知道出现正面的概率,出现正面的概率记为e,然后根据我们的估计的就能得到下一次为正面的概率,这里用到的是先验概率,可是当我们抛之后有了事实之后就有了后验概率,我们根据经验而来的参数去估计某一个事件发生的概率,然后在根据发生后的事实来修正原创 2016-11-22 21:04:20 · 1581 阅读 · 0 评论 -
SVM算法下如何使用SMO算法优化拉格朗日乘子
http://blog.csdn.net/qq_27717921/article/details/53714293原创 2016-12-17 21:54:44 · 721 阅读 · 0 评论 -
马尔可夫平稳过程到MCMC采样
http://blog.csdn.net/qq_27717921/article/details/53714602原创 2016-12-17 22:03:08 · 867 阅读 · 0 评论 -
Dirchlet共轭结构与主题模型
http://blog.csdn.net/qq_27717921/article/details/53713790原创 2016-12-17 21:29:21 · 942 阅读 · 0 评论 -
BP算法的公式推导
原创 2016-12-31 18:50:25 · 611 阅读 · 0 评论 -
集成学习---个体学习器的多样性
无论是串行生成的个体学习器,还是同时生成的个体学习器,我们都希望我们所集成的个体学习器是“好而不同的”,“好而不同”的学习器就涉及到个体学习器的两个方面,个体学习器的“准确性”和“多样性”。而“准确性”和“多样性”之间是冲突的,也就是说准确性很高之后,要增加多样性就需要牺牲准确性。原创 2017-02-04 17:00:55 · 1351 阅读 · 0 评论 -
信息检索、分类系统的指标Recall,F,AUC及ROC
下面要说的几个指标主要是应用在信息检索与分类系统中,尤其是在机器学习中,单纯的错误率只能反映出在所有的测试样例中错分的样例比例,这样的度量方式掩盖了样例是如何被分错的,在机器学习的衡量指标中普遍适用的成为混淆矩阵的工具,相关的指标有Recall(召回率),Precision(正确率),F值,AP,MAP,ROC曲线,AUC值信息检索的混淆矩阵原创 2017-01-29 14:30:46 · 767 阅读 · 0 评论 -
关于词向量
参考论文:Efficient Estimation of Word Representations in Vector SpaceOne-hot Represention在深度学习没有如此如火如荼之前,语言模型的建立依靠的一般还是SVM,CRF等算法,为了将自然语言符号、数值化,One-hot Represention 成为了当时不错简单粗暴的词向量表示方法。 每个词原创 2017-12-01 14:13:36 · 1808 阅读 · 0 评论