机器学习
文章平均质量分 68
Vi_NSN
这个作者很懒,什么都没留下…
展开
-
符号表
符号 含义 RR 实数集实数集 RnR^n n维实数向量空间n维实数向量空间 HH 希尔伯特空间希尔伯特空间 XX 输入空间输入空间 YY 输出空间输出空间 x∈Xx \in X 输入,实例输入,实例 y∈Yy \in Y 输出,标记输出,标记 XX 输入随机变量输入随机变量 YY 输出随机变量输出随机变量 T={(x1,原创 2017-09-12 14:48:32 · 381 阅读 · 0 评论 -
参数估计
样本的统计量设随机变量XX的NN个样本为X1,X2,...,XnX_1,X_2,...,X_n,则 1. 样本均值为:X¯¯¯=1n∑i=1nXi,\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i, 2. 样本的方差为:S2=1n−1∑i=1n(Xi−X¯¯¯)2S^2=\frac{1}{n-1}\sum^{n}_{i=1}(X_i-\overline X)^2原创 2017-12-22 18:13:35 · 487 阅读 · 0 评论 -
[机器学习实战]决策树
原理步骤分解完整代码原理 通过提问的方式,根据不同的答案选择不同的分支, 完成不同的分类步骤分解1.遍历数据集, 循环计算提取每个特征的香农熵和信息增益, 选取信息增益最大的特征。 再递归计算剩余的特征顺序。 将特征排序。 并将分类结果序列化保存到磁盘当中def chooseBestFeatureToSplit(dataSet): # 选择最好的分类特征 """ :param原创 2017-12-25 21:03:38 · 286 阅读 · 0 评论 -
[Spark_mllib]K-Means
K-means优缺点步骤使用后处理来提高聚类性能二分K-Means算法Spark实现KMeans关键步骤聚类个数K的选择初始聚类中心点的选择MLlib的K-means实现参数Spark_K-Means_PythonK-means优缺点优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢步骤选择K个点作为初始聚类中心计算其余所有点到聚类中心的距离,并把每个原创 2017-12-25 21:06:26 · 290 阅读 · 0 评论 -
[数据与处理]归一化(连续值和离散值)
归一化原因归一化目的连续值归一化常见方法Max-Min0均值标准化Z-Score对数函数法离散值归一化常见方法One-Hot编码归一化原因1. 如果多个特征之间数值差异较大,那么收敛速度会很慢。如吴恩达老师在《机器学习》中给出的例子:x1的取值为0-2000,而x2的取值为1-5,假如只有这两个特征,对其进行优化时,会得到一个窄长的椭圆形,导致在梯度下降时,梯度的方向为垂直等高线的原创 2017-12-25 21:08:28 · 6734 阅读 · 0 评论 -
[机器学习实战]kNN
原理源码加权kNN高斯函数交叉验证原理kNN(k近邻算法)的基本思想就是选择距离待分类点最近的K个点,统计这K个点中出现的分类的概率, 出现概率最高的分类即为待分类点的分类源码from numpy import *import operatordef createDataSet(): # create data set group = array([[1.0, 1.1],原创 2017-12-25 21:04:36 · 400 阅读 · 0 评论