机器学习
LXYTSOS
计算机视觉与强化学习。
展开
-
SVM
支持向量机(Support Vector Machine,SVM)是众多监督学习方法中十分出色的一种,几乎所有讲述经典机器学习方法的教材都会介绍,下面总结一下关于SVM的知识点。常见的几何性质原始公式的导出SVM的性质对偶形式推导KKT条件SMO算法...原创 2020-01-16 21:34:36 · 404 阅读 · 2 评论 -
机器学习实战线性回归局部加权线性回归笔记
线性回归 用线性回归找到最佳拟合直线回归的目的是预测数值型数据,根据输入写出一个目标值的计算公式,这个公式就是回归方程(regression equation),变量前的系数(比如一元一次方程)称为回归系数(regression weights)。求这些回归系数的过程就是回归。假设输入数据存放在矩阵X X中,回归系数存放在向量w w中,那么对于数据X 1 X_1的预测结果可以用Y 1 =X T原创 2015-10-18 08:49:20 · 7894 阅读 · 3 评论 -
贝叶斯思维漫步
现在仍然记得大学最“无聊”的一堂课之一——概率论,出勤人数三个班加起来也没超过正常一个班的数量,当然最后一堂课除外(笑)。个人感觉上课也比较枯燥,当时完全不知道概率论可以用在什么方面,所有听课也就不是那么认真,结果就是期末考试只有70多分(想想当年高数90多线性代数也90······)。然而随着大学毕业,概率论也就离我远去,好像不会再有交集。后来开始“专研”机器学习方面的知识,“朴素贝叶斯”这个名词原创 2015-11-18 21:32:47 · 6315 阅读 · 2 评论 -
最小二乘(Least Squares)
已经很久没有写博客了,今天决定写一篇关于最小二乘的博客,发表下自己的理解,有不足或错误之处,欢迎大家指正。最小二乘,又被叫做最小乘方or最小平方,它是一种优化技术。当给你一堆数据点,你可以想象成初中数学课堂上学习解析几何的时候,在坐标轴上给出一些点(通常这些点连起来是一条直线),然后要求算出这条直线的解析式(也就是拟合这些数据点),或计算斜率(可以理解成回归系数),然后要你算出当x等于多少时y的值之原创 2016-03-26 22:22:11 · 6167 阅读 · 0 评论 -
决策树
决策树是应用最广的归纳推理算法之一,它是一种逼近离散函数方法,对噪声数据有很好的鲁棒性,能够学习析取表达式,广为应用的算法有ID3,ASSISTANT和C4.5。通常决策树代表实例属性值约束的合取(conjunction)的析取式(disjunction)。树根到树叶的每一条路径对应一组属性测试的合取,而整棵树是这些合取的析取。基本的ID3算法是通过自顶向下构造决策树进行学习的。首先考虑的问题是哪一原创 2016-04-09 21:02:48 · 8034 阅读 · 0 评论 -
在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别
昨天我在Kaggle上下载了一份用于手写数字识别的数据集,想通过最近学习到的一些方法来训练一个模型进行手写数字识别。这些数据集是从28×28像素大小的手写数字灰度图像中得来,其中训练数据第一个元素是具体的手写数字,剩下的784个元素是手写数字灰度图像每个像素的灰度值,范围为[0,255],测试数据则没有训练数据中的第一个元素,只包含784个灰度值。现在我打算使用Spark MLlib中提供的朴素贝叶原创 2016-05-11 22:40:40 · 10546 阅读 · 0 评论 -
多层网络和反向传播笔记
在我之前的博客中讲到了感知器(感知器),它是用于线性可分模式分类的最简单的神经网络模型,单个感知器只能表示线性的决策面,而反向传播算法所学习的多层网络能够表示种类繁多的非线性曲面。对于多层网络,如果使用线性单元的话,多个线性单元的连接仍然是线性函数,所以还不能表征非线性函数。使用感知器单元,但是它不连续所以也就不可微,不适合梯度下降算法。我们需要这么一种单元,它的输出是输入的非线性函数,而且输出是输原创 2016-04-17 21:25:28 · 10676 阅读 · 1 评论 -
在Kaggle手写数字数据集上使用Spark MLlib的RandomForest进行手写数字识别
昨天我使用Spark MLlib的朴素贝叶斯进行手写数字识别,准确率在0.83左右,今天使用了RandomForest来训练模型,并进行了参数调优。首先来说说RandomForest 训练分类器时使用到的一些参数:numTrees:随机森林中树的数目。增大这个数值可以减小预测的方差,提高预测试验的准确性,训练时间会线性地随之增长。maxDepth:随机森林中每棵树的深度。增加这个值可以是模型更具原创 2016-05-12 20:36:43 · 14585 阅读 · 0 评论 -
从几何角度切入最近邻
我们可以将预测任务看成是将一些输入映射成输出的过程。将输入分解成一系列特征集合,来形成对学习有用的抽象,因此,输入就是一系列特征值。我们从几何学的角度来看待这些数据,每一个特征是空间中的一个维度,因此每个数据点可以映射成高维空间中的点。把数据集看作是高维空间中的点之后,我们可以在这些点上进行几何运算。比如,假如你想预测同学A是否会喜欢算法这门课程,我们可以找一位与同学A相似的同学B,假如同学B喜欢算原创 2016-09-16 13:43:19 · 4881 阅读 · 0 评论 -
大家的人工智能——Logistic回归
在《大家的人工智能——线性回归》中,什么是拟合,代价函数,梯度下降,相信大家已经对这些基本概念有所了解。线性回归的应用场景是输出为连续的数值,比如下个月的房价多少,明天的气温多少。而在机器学习中还有一类任务,它的输出是离散的,比如明天他会不会去游泳(会或不会),这是狗还是猫,这就是分类任务,而Logistic回归就是处理这种分类任务的,不要看他的名字里面有“回归”两个字,但是它其实是个分类算法。它...原创 2019-06-20 21:35:17 · 540 阅读 · 0 评论 -
机器学习实战Logistic回归笔记
假设我们有一些数据点,我们使用一条直线对这些点进行拟合,这条线称为最佳拟合直线,这个拟合过程称为回归。利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。我们想要得到一个函数,能够接受所有的输入然后预测出类别。例如在两个类的情况下,函数输出0或1。该函数称为海维塞德阶跃函数(Heaviside step function),或者直接称为单位阶跃函数。但是原创 2015-09-04 22:54:54 · 5148 阅读 · 1 评论 -
Machine Learning With Spark学习笔记(提取10万电影数据特征)
注:原文中的代码是在spark-shell中编写执行的,本人的是在eclipse中编写执行,所以结果输出形式可能会与这本书中的不太一样。首先将用户数据u.data读入SparkContext中,然后输出第一条数据看看效果,代码如下:val sc = new SparkContext("local", "ExtractFeatures")val rawData = sc.textFile("F:\\原创 2015-08-14 11:38:33 · 4205 阅读 · 0 评论 -
Machine Learning With Spark学习笔记(在10万电影数据上训练、使用推荐模型)
我们现在开始训练模型,还输入参数如下: rank:ALS中因子的个数,通常来说越大越好,但是对内存占用率有直接影响,通常rank在10到200之间。 iterations:迭代次数,每次迭代都会减少ALS的重构误差。在几次迭代之后,ALS模型都会收敛得到一个不错的结果,所以大多情况下不需要太多的迭代(通常是10次)。 lambda:模型的正则化参数,控制着避免过度拟合,值越大,越正则化。我们将原创 2015-08-14 16:56:26 · 5029 阅读 · 5 评论 -
统计学习基础(第二版)两种简单的预测方法:最小二乘和最近邻
2.3两种简单的预测方法:最小二乘和最近邻在本节中我们详细讨论两种简单但有效的预测方法,使用最小二乘线性模型拟合和k最近邻预测。线性模型对结构做了大量的假设,但是可能会产生不准确的预测。K-最近邻对结构做了适当的假设,所以预测通常是精确但不稳定的。 2.3.1线性模型和最小二乘在过去的30年中,线性模型一直是统计学的支柱,而且现在依然是我们最重要的工具之翻译 2015-03-15 12:47:39 · 4250 阅读 · 0 评论 -
统计学习基础(第二版)——引言
统计学习基础 第二版引言统计学习在诸多科学、金融、工业领域起到了关键性的作用,下面列举了一些学习的案例。针对一位因心脏病住院的病人,预测其心脏病再次发作的概率。基于这位病人的人口信息、饮食和临床诊断信息来预测。基于公司业绩评估和经济数据,预测6个月之后的股票走势。基于数字化的图像,识别手写的邮政编码数字。从糖尿翻译 2015-03-02 16:27:03 · 4081 阅读 · 0 评论 -
神经网络与机器学习笔记——贝叶斯分类器
高斯环境下贝叶斯分类器退化为线性分类器,与感知器形式一样,但是感知器的线性特性并不是由于高斯假设而引起的。贝叶斯分类器:高斯分布下的贝叶斯分类器原创 2015-05-09 11:55:15 · 4974 阅读 · 0 评论 -
神经网络与机器学习导言笔记——反馈
一个元素的输出能够部分地影响作用于该元素的输入,从而造成一个或多个围绕该系统进行信号传输的封闭路径时,则动态系统中存在反馈(feedback)。原创 2015-04-21 21:01:57 · 3378 阅读 · 0 评论 -
神经网络与机器学习导言笔记——网络结构与知识表示
网络结构单层前馈网络、多层前馈网络、递归网络。知识表示知识是人或奇迹存储起来以备使用的信息或模型,用来对外部世界作出解释、预测、和适当反应。知识表示的规则原创 2015-04-25 10:30:56 · 3569 阅读 · 0 评论 -
神经网络与机器学习笔记——Rosenblatt感知器
Rosenblatt感知器感知器是用于线性可分模式(模式分别位于超平面两边)分类的最简单的神经网络模型,基本上由一个具有可调突触权值和偏置的神经元组成。Rosenblatt证明了当用来训练感知器的模式(向量)取自两个线性可分的类时,感知器算法是收敛的,并且决策面是位于两类之间的超平面。算法的收敛性称为感知器收敛定理。原创 2015-05-01 10:22:41 · 6224 阅读 · 6 评论 -
神经网络与机器学习导言——神经元的统计模型和被看作有向图的神经网络
神经元的统计模型被看作有向图的神经网络原创 2015-04-18 11:59:36 · 3786 阅读 · 0 评论 -
神经网络与机器学习笔记
导言神经元模型激活函数类型原创 2015-04-15 19:50:06 · 3407 阅读 · 0 评论 -
支持向量机笔记
支持向量机是一种通用的前馈网络类型。 主要思想: 给定训练样本,支持向量机建立一个超平面作为决策面,使得正例和反例之间的间隔边缘被最大化。原创 2015-06-03 21:05:59 · 3541 阅读 · 0 评论 -
神经网络与机器学习笔记——K-均值聚类
聚类是非监督学习的一种形式,它将一个观测集(即数据点)划分到自然组或模式聚类。聚类的途径是测量分配给每个聚类的观测对之间的相似性以最小化一个指定的代价函数。K-均值(K-means)简单易实现,同时具有良好的性能。聚类重新定义:给定N个观测值得集合,通过以下方式寻找编码器C:将这些观测值分配给K个聚类,使得在每个聚类中,给定的观测值与聚类均值的不相似性的平均度量最小。原创 2015-05-25 20:40:04 · 4795 阅读 · 0 评论 -
Machine Learning With Spark学习笔记
此笔记为本人在阅读Machine Learning With Spark的时候所做的,笔记有翻译不准确或错误的地方欢迎大家指正。Spark集群Spark集群由两种进程组成:一个驱动程序和多个执行程序。在本地模式下,所有的进程都在同一个Java虚拟机中运行。在集群上,这些进程则通常在多个节点上运行。比如,在单机环境下运行的集群有以下特征: 1、一个主节点作为spark单机模式的主进程和驱动程序。原创 2015-07-01 14:23:12 · 4488 阅读 · 1 评论 -
K-近邻算法(KNN)
k-近邻算法是一种分类算法,简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,也就是说我们知道样本集中每一数据与所属分类的对应原创 2015-01-14 09:22:50 · 2338 阅读 · 0 评论