机器学习
乔qiao
人生的意义在于成就
展开
-
spark开始
第一章spark是什么相对于Hadoop Mapreduce的优点在于:速度更快,丰富的API,支持交互式查询,流式计算,机器学习,图计算等 假设:我们假设你已经有了关于数据存储的解决方案,所以不会讲到如何搭建一个数据存储系统 Spark 项目包含多个紧密集成的组件,可以像在平常软件项目中使用程序库那样,组合使用这些的组件。 认识组件: spark CoreSpark Core 实现了 Sp转载 2017-10-04 23:42:05 · 246 阅读 · 0 评论 -
KNN学习及实现
目录:一、KNNK紧邻算法 三个基本要素:距离的度量 k值的选择 分类决策规则KNN优点简单,易于理解,易于实现,无需估计参数,无需训练特别适合于多分类问题(multi-modal,对象具有多个类别标签), kNN比SVM的表现要好。适合对稀有事件进行分类KNN缺点该算法在分类时有个主要的不足是,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个原创 2017-10-04 23:16:39 · 433 阅读 · 0 评论 -
过拟合问题
过拟合定义在给定的一个假设空间HH,一个假设属于hh,如果存在其他的假设h,h^{,},属于HH,使得在训练样例上hh的错误率比h,h^{,}小,但在整个实例分布上h,h^{,}比hh错误率小,那么说假设hh过度拟合了训练数据。 通俗一点说,就是在提升模型(上面所说的假设)在训练数据上的表现,在测试集上的表现反而变差。或者说将不仅学习到了数据的一般规律,还将非一般规律(数据的特异点或者离群点)学习原创 2017-10-09 17:46:02 · 1041 阅读 · 0 评论 -
神经网络分类
人工神经网络(Artificial Neural Network,ANN)简称神经网络(NN),是基于生物学中神经网络的基本原理,在理解和抽象了人脑结构和外界刺激响应机制后,以网络拓扑知识为理论基础,模拟人脑的神经系统对复杂信息的处理机制的一种数学模型。一、神经网络的发展第一阶段-启蒙 (1)M-P神经网络模型:40年代,美国心理学家麦克洛奇(Mcculloch)和数学家皮兹(Pitts)提出了转载 2017-09-19 15:37:27 · 41944 阅读 · 1 评论 -
特征选择概述
维基百科定义:在机器学习和统计学中,特征选择(英语:feature selection)也被称为变量选择、属性选择或变量子集选择。 它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。特征选择的目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化原创 2017-10-09 15:39:58 · 1089 阅读 · 0 评论 -
面试遇到的机器学习问题
LDA,softmax,正则化 如何证明某特征对结果有没有影响 梯度消失问题 线性相关特征对结果的影响 特征矩阵和特征向量的意义 dropout 连续值离散化 时间序列模型 稠密矩阵 条件随机场 降维方法原创 2017-09-27 22:35:35 · 245 阅读 · 0 评论 -
PCA与SVD学习之路
前言由于实验室课题中用到了PCA降维,而我之前对于pca的理解一直是不够深入。不能理解得分转换矩阵系数的大小和正负的意义。特征值的内在意义。所以现在仔细研究一下,以求对其有进一步的理解。 PCA(Principal Component Analysis)通过线性变化将原始数据变换为各维度线性无关的表示,可用于提取数据的主要特征向量,常用于数据的降维[1]。向量表示和投影我们知道,二维空间中的一点可转载 2017-09-20 12:34:44 · 328 阅读 · 0 评论 -
几个易混淆的概念(准确率-召回率,击中率-虚警率,PR曲线和mAP,ROC曲线和AUC)
http://blog.csdn.net/dyx810601/article/details/51437171原创 2017-06-01 16:16:02 · 1454 阅读 · 0 评论 -
机器学习 特征选择概述
http://blog.csdn.net/lilu_leo/article/details/65935048http://lib.csdn.net/article/machinelearning/2939原创 2017-09-27 22:30:51 · 267 阅读 · 0 评论 -
随机森林特征重要性度量
使用随机森林度量特征重要性的方法在此介绍两种:通过基尼指数计算节点的不纯度衡量特征重要性 在节点t使用属性a作为划分属性,估计属于不同类的概率,使用p(k|t),k=1,…,Q表示,基尼指数的定义为: Q是样本种类数。在使用属性Xj作为划分属性时,计算划分之前与划分之后的基尼指数(表示不确定性程度)之差,使用表示,表示平均减少基尼指数。通过袋外数据的误差OOB(out-of-bag)衡量翻译 2017-09-06 20:19:40 · 11847 阅读 · 0 评论 -
基于matlab的LIBSVM的调试
MinGW全称Minimalist GNU For Windows,是个精简的Windows平台C/C++、ADA及Fortran编译器,相比Cygwin而言,体积要小很多,使用较为方便。MinGW提供了一套完整的开源编译工具集,以适合Windows平台应用开发,且不依赖任何第三方C运行时库。MinGW包括:一套集成编译器,包括C、C++、ADA语言和Fortran语言编译器用于生成Windows原创 2017-06-01 16:15:15 · 5202 阅读 · 1 评论 -
二叉树叶子节点比非叶子结点数多1
首先将节点分为三类:0度节点(叶子结点)没有树枝 z; 1度节点(不分叉)有一个树枝 y; 2度节点(分叉)两个树枝 x。假设总的节点数为N,那么树枝数为N-1。画一棵树看看马上就能理解。下面解方程:2x + y = N - 1;看节点和树枝的关系x + y + z = N; 解得:z=x+1注:在cart决策树中不存在1度节点。结果仍同上式。原创 2017-03-12 22:39:25 · 3068 阅读 · 0 评论 -
LDA
LDA是什么? LDA(linear discrimination analysis ),也称为Fisher线性判别(Fisher Linear Discrimination,FLD)基本思想? 将高维样本投影到可以实现最佳分类的矢量空间,以实现抽取分类信息和压缩特征空间的目的。投影之后,在新空间中的样本的特点是:保证最小的类内距离和最大的类间距离。原创 2017-11-26 13:13:33 · 297 阅读 · 0 评论