2018年01月_RounrounZhang

原创决策树-机器学习实战

决策树决策树模型是一种描述对实例进行分类的树形结构，决策树由节点和有向边组成，节点有两种类型：内部节点和叶节点。内部节点表示一个特征或属性，叶节点表示一个类。通常决策树的学习包括3个步骤：特征选择、决策树的生成和决策树的修剪。特征选择：选取对训练数据具有分类能力的特征通常的准则是信息增益或者信息增益比 1. 信息增益熵：表示随机变量不确定性的度量。

2018-01-25 16:50:03 263

原创 kNN-手写数字识别

kNN - 手写数字识别识别手写的数字0-9，图像为32像素×\times32像素的黑白图像 1.将图像转换为向量将32×\times32的二进制图像矩阵转换为1×\times1024的向量。 #将图像转化为向量 def imgVector(filename): returnVect = zeros((1,1024)) fr = open(filename)

2018-01-24 14:48:32 403

原创机器学习实战-kNN

读书笔记-机器学习实战-kNN kNN思想：已知训练样本集和其对应的标签，对于没有标签的新数据，将新数据的每个特征和训练样本集中数据对应的特征进行比较，提取样本集中最相似的k个数据的标签，选择k个最相似数据中出现最多次数的标签作为新数据的标签。 1.从文本文件中解析数据对未知类别属性的数据集中的每个点依次执行以下操作: (1)计算已知类别数据集中的点与当前点之间的距离

2018-01-23 13:14:52 220

原创隐马尔可夫模型

先用一个例子帮助理解：假设有三个骰子，分别为D6, D4, D8, 选中每个骰子的概率为13\frac1{3}, 每次选取一枚骰子进行抛掷，得到的数字为{1，2，3，4，5，6，7，8}中的一个，重复10次得到一串数字为[1 6 3 5 2 7 3 5 2 4]，这些观测变量称为可观测状态序列。在隐马尔可夫模型下，还存在一串隐含状态链，在这个例子里，这串隐含状态链就是我们使用骰

2018-01-17 21:46:55 793 1

原创 EM算法

1.与极大似然估计的关系：极大似然估计：已知结果和概率分布估计概率分布的参数 θθ\theta EM算法：已知结果估计概率分布的参数 θθ\theta，EM算法是含有隐变量的概率模型参数的极大似然估计法。一般的用Y表示观测随机变量的数据，Z表示隐随机变量的数据。Y和Z连在一起称为完全数据，观测数据Y称为不完全数据。假设给定观测数据Y,其概率分布是P(Y | θθ\theta)...

2018-01-16 16:41:18 323

原创非线性支持向量机与核函数

1. 核技巧 1.1 非线性分类问题非线性分类问题不好求解，一般将其转化为一个线性分类问题进行求解，核技巧就是这样，其基本思想就是通过非线性变换将输入空间对应到一个特征空间上，使得输入空间中的超曲面模型对应于特征空间上的一个超平面模型也就是支持向量机，问题转化为在特征空间中求解支持向量机。 1.2 核函数对于输入空间 \cal X 和特征空间 \cal H，存在一个从 \

2018-01-11 16:14:29 2421

原创支持向量机 SVM-学习笔记

支持向量机：一种二分类模型，其基本模型是定义在特征空间上的间隔最大的线性分类器。 1. 线性可分支持向量机支持向量机的学习目标：在特征空间中找到一个分离超平面，将实例分到不同的类且几何间隔最大，分离超平面对应于方程w·x+b=0,其中w为法向量，b为截距。分离超平面将特征空间划分为两部分，一部分为正类（即法向量指向的一侧），一部分为负类。与感知机的区别：感知机：利用误分类最小策略求

2018-01-09 16:33:46 708

原创最大熵模型 maximum entropy model

熵：度量事物的不确定性，熵越大则越混乱。在信息论中，熵描述随机变量的不确定程度。最大熵原理：最大熵原理为在满足约束条件的模型中选取熵最大的模型。可以理解为对一个随机事件的概率分布进行预测时，预测应当满足全部已知条件，而对未知的情况不要做任何主观假设。在这种情况下，概率分布最均匀，预测的风险最小。最大熵模型的学习对于给定的训练数据集T={(x1,y1),(x2,y2),…,(xn,yn)

2018-01-08 13:59:50 392

原创 logistic regression

一、logistic regression 解决统计学中的分类问题，其分布函数为一条S形的曲线，该曲线以（u,1/2）中心对称，曲线在中心附近增长速度较快，两端增长速度较慢。 1. logistic regression model 是一种分类模型，形式化的表示为条件概率分布 P(Y|X)，其中随机变量X取值为实数，随机变量Y的取值为1或0. 其主要思想即为比较两个条件概率的

2018-01-05 11:40:25 404

RounrounZhang的博客