机器学习
autoliuweijie
这个作者很懒,什么都没留下…
展开
-
机器学习: 决策树(Decision Tree)
决策树(Decision Tree)作者:刘伟杰 日期:2015-11-27 参考: [1]《统计学习方法》 李航 2012年3月第一版 [2]《机器学习实战》 Peter Harrington 1. 理论概述:决策树的内部节点表示一个特征或属性,叶子节点表示一个类别。输入一个新样本,从根节点开始按照节点说示的特征划分,直到划分到叶子节点,该叶子节点即为类别。关于熵的基础原创 2015-12-13 19:34:27 · 3668 阅读 · 0 评论 -
配置机器:win10 + ubuntu16.04 + gtx1080
0. 硬件配置主板:技嘉z170x-gaming 7 CPU: intel i7 6700k 显卡:技嘉gtx1080 g1 SSD: 三星950 pro 256G 内存:金士顿16G*4 电源:振华1000W电源1. Windows有这么好的显卡,除了跑deep learning外,当然还是可以装个windows打游戏, 所以先装个win10.1.1 安装windows 10系统1.1原创 2016-11-07 19:44:35 · 4520 阅读 · 0 评论 -
深度学习环境配置:ubuntu16.04 + cuda8.0 + cudnn5.1
cuda是nvidia提供的gpu接口库 cudnn是nvidia提供的深度学习接口一般一些深度学习框架(如tensorflow, theano, caffe)都会用到这些。0. ubuntu16.04安装与配置参照我的这篇文章把ubuntu 16.04, 显卡驱动安装好http://blog.csdn.net/autoliuweijie/article/details/530695131. 安装原创 2016-11-15 17:29:58 · 2417 阅读 · 0 评论 -
cs231n课程课件、作业以及课程笔记
1.课程课件:课程课件2. 作业我的作业3. 笔记我的笔记原创 2016-11-07 16:18:48 · 16859 阅读 · 3 评论 -
python 计算信息熵和信息增益
1. 计算信息熵def calc_ent(x):""" calculate shanno ent of x"""x_value_list = set([x[i] for i in range(x.shape[0])])ent = 0.0for x_value in x_value_list: p = float(x[x == x_value].shape[0]) / x.sh原创 2016-08-18 19:43:58 · 42098 阅读 · 14 评论 -
用Cmake管理openCV项目
用Cmake的find_package()命令可以帮我们很快找到openCV依赖的lib文件,而不用自己一个个target_link_libraries()示例CMakeList.txt文件cmake_minimum_required(VERSION 3.3)project(test)set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -std=c++11")set(S原创 2016-02-26 16:06:58 · 713 阅读 · 0 评论 -
独立成分分析(ICA)
http://www.cnblogs.com/jerrylead/archive/2011/04/19/2021071.htmlhttp://blog.csdn.net/ffeng271/article/details/7353881转载 2016-03-03 21:14:15 · 1266 阅读 · 0 评论 -
[转]干货:结合Scikit-learn介绍几种常用的特征选择方法
> 文章 > 技术专区 > 干货:结合Scikit-learn介绍几种常用的特征选择方法 干货:结合Scikit-learn介绍几种常用的特征选择方法 技术专区 小林子 8个月前 (04-08)转载 2015-12-13 20:41:01 · 1947 阅读 · 0 评论 -
机器学习:Apriori发现频繁项集和关联规则
参考: [1] 《机器学习实战》 Peter1. 理论概述:Apriori算法可以用来发现频繁项集,进而在频繁项集的基础上发现关联规则。一些概念:频繁项集(frequent item sets): 物品的集合称为项集,经常出现的项集称为频繁项集,例如{啤酒,尿布,豆奶};支持度(support):是针对一个项集来定义的,数据集中包含该项集的记录所占的比例,用来衡量一个项集的频繁程度;关联规则(a原创 2015-12-13 20:28:35 · 3401 阅读 · 0 评论 -
机器学习:隐马尔可夫模型(HMM)
参考:[1]《统计学习方法》 李航 2012年3月第一版1. 理论概述:隐马尔可夫模型是一个关于时间序列的概率模型,模型由初始状态随机生成不可观测的状态序列(隐藏的马尔可夫链),再由状态序列中的状态随机生成可观测的观测序列。模型:在定义马尔可夫模型前,先定义这个模型相关的一些量。所有可能的N个状态的集合Q:所有可能的M个观测的集合V:长度为T的状态序列I,其中i_{?}为序号,对应状态集合Q中的原创 2015-12-13 20:25:03 · 5295 阅读 · 0 评论 -
机器学习:特征缩减技术(shrinkage): lasso和岭回归
1. 理论概述:通过对损失函数(即优化目标)加入惩罚项,使得训练求解参数过程中会考虑到系数的大小,通过设置缩减系数(惩罚系数),会使得影响较小的特征的系数衰减到0,只保留重要的特征。常用的缩减系数方法有lasso(L1正则化),岭回归(L2正则化)。缩减系数的目的2.1 消除噪声特征:如果模型考虑了一些不必要的特征,那么这些特征就算是噪声。噪声是没必要的,使得模型复杂,降低模型准确性,需要剔除。原创 2015-12-13 20:19:37 · 20727 阅读 · 1 评论 -
机器学习: 逻辑回归(Logistic Regression)
1. 原理概述:这是一个分类模型。当输入一个新样本的时候,把样本的特征值输入到f(X)函数中,再将f(X)的结果输入到sigmoid函数中,输出即为分类结果。训练过程就是通过训练集合寻找f(X)的系数,使得分类误差最小。f(X)常用线性函数,训练的算法有梯度法、牛顿法等。sigmoid函数:logisitic分布的分布函数就是sigmoid函数。logistic模型:其中:f(X)可以是任意函原创 2015-12-13 19:57:22 · 973 阅读 · 0 评论 -
机器学习:集成算法(Ensemble Method)
1. 集成算法: 将多个分类器集成起来而形成的新的分类算法。这类算法又称元算法(meta-algorithm)。最常见的集成思想有两种bagging和boosting。2. 集成思想:boosting:基于错误提升分类器性能,通过集中关注被已有分类器分类错误的样本,构建新分类器并集成。bagging:基于数据随机重抽样的分类器构建方法。 3. 算法示例:随机森林(Random For原创 2015-12-13 20:13:32 · 15582 阅读 · 0 评论 -
机器学习:支持向量机(SVM)
1. 理论概述:利用训练集在特征空间中求出一个分类超平面(w,b)把样本切割开,依靠该超平面对新样本进行分类。如果训练集在当前的特征空间中无法分割,则用核技术的映射函数把原特征空间映射到高纬或者无穷维空间再切割。基本概念:超平面:用(w,b)表示, w1*x1 + w2*x2 +...+ wn*xn = 0 表示在特征空间中的一个平面。需要注意的是,一个平面可以对应多个(w,b)。函数距离(间原创 2015-12-13 20:08:26 · 2792 阅读 · 0 评论 -
机器学习: 朴素贝叶斯(Naive Bayes)
1. 理论概述:贝叶斯算法中认为某个类在特征空间中出现某种特征的组合的概率为p。如果新输入一个实例,计算各个类出现这个新样本的特征的概率,选取概率最大的一个类作为新样本的分类(当然也可以根据贝叶斯公式给出各个分类的概率,即可能性)。p通过统计训练集中的样本来获得,其中会假设各个特征之间相互独立(这也是被称作naive的原因)。关键原理:当分类Y=ck时,出现特征组合X=x的概率为: 上公等号左边原创 2015-12-13 19:54:54 · 2070 阅读 · 0 评论 -
机器学习: k-近邻(kNN)
机器学习: k-近邻(kNN)作者:刘伟杰 日期:2015-11-27 参考: [1]《统计学习方法》 李航 2012年3月第一版 [2]《机器学习实战》 Peter Harrington 1. k-nn描述:给定一个训练数据集,对于新输入的实例,在训练集中找到与该实例最近的k个实例,统计这k个实例中多数的类别,就把该类别作为新输入实例的类别。2. 参数:距离度量:Lp距离(原创 2015-12-13 19:23:43 · 686 阅读 · 0 评论 -
机器学习:FP-growth 发现频繁项集
参考: [1] 《机器学习实战》 Peter1. 理论概述:用项集的集合构造出FP树,再从FP树中挖掘出频繁项集。该方法会比Apriori更高效步骤:第一步: 创建FP树第二步: 从FP树中挖掘出频繁项集示例:参考Peter写出的实例,具体代码见附录,调用过程如下:# 获取数据data_set = [ ['r', 'z', 'h', 'j', 'p'], ['z', 'y原创 2015-12-13 20:31:07 · 1065 阅读 · 0 评论 -
Softmax 函数解决上溢出(overflow)和下溢出(underflow)问题
什么是上溢出和下溢出在计算softmax值的时候,会做e的指数,这可能会数值过大导致导致上溢出,或者数值过小而取0(下溢出)解决办法https://blog.csdn.net/csuzhaoqinghui/article/details/79742685...转载 2018-09-17 09:08:29 · 3962 阅读 · 0 评论