MachineLearning
文章平均质量分 89
liyaohhh
这个作者很懒,什么都没留下…
展开
-
机器学习入门(一)朴素贝叶斯解析
__author__ = 'Administrator'import numpy as npdef loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to',原创 2015-12-16 17:37:11 · 957 阅读 · 0 评论 -
机器学习:浅谈先验概率,后验概率
机器学习:浅谈先验概率,后验概率 在学习贝叶斯网络模型的时候,接触到好多比较麻烦的概念,今天又复习了一下,就写一下笔记,用来巩固一下。 主题模型LDA算法是自PLSA之后一个重大提升。PLSA的model如下: P(di) ------>P(z|di)--------->P(wj|zk) 上面的P(di)被认为是文档的概率原创 2016-04-12 21:58:36 · 26393 阅读 · 1 评论 -
机器学习:集成学习
机器学习:集成学习 继承学习最初的model是并行的去计算一个model在不同的参数下得到的结果,我们从里面找一个最好。有些时候我们的model实在是精度上不去,就可以上集成学习,因为理论支撑:多个model集成的结果最差的情况就是和原来没有什么变化。最终集成得到的model的误差应该是单个model与集成之后model的误差和集成之后model和目标的误差之间的trade原创 2016-04-08 11:41:48 · 2455 阅读 · 0 评论 -
python 字典排序
python 字典排序 import operatordict={'a':1,'b':4,'c':3}sortedDict=sorted(dict.iteritems(),key=operator.itemgetter(0),reverse=True)sortedDict1=sorted(dict.iteritems(),key=operator.itemgetter(1)原创 2016-03-14 21:55:08 · 655 阅读 · 0 评论 -
机器学习:决策树python实现
机器学习:决策树python实现源码笔记 打算今天开始回顾一下ml的经典算法,就去按照书上实现了决策树。其实,ml代码模式有很大的相似之处,特征的划分等等。def createDataSet(): dataSet = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'],原创 2016-03-14 21:19:19 · 823 阅读 · 0 评论 -
机器学习:SVR支持向量机回归
机器学习:SVR支持向量机回归 一直以来接触的都是支持向量去做分类,这里稍微谈一下SVR,就是用支持向量去做回归。SVR最回归在本质上类似于SVM,都有一个margin,只不过是这里的margin表示和SVM是不相同的,完全相反。在SVM中的margin是想把两个class分开,而这里SVR的margin是说:在margin里面的的数据是不会对对回归有任何的帮助,也就是没有贡献原创 2016-04-06 18:24:10 · 35732 阅读 · 4 评论 -
机器学习:过拟合和交叉印证
机器学习:过拟合和交叉印证 过拟合的概念:表示在训练数据集上表现的优良但是在测试数据上表示的却很不好,本质上就是表示Eout和Ein的差距很大.如左下图,红色的线完美的拟合数据。在趋于右面的时候会表现的更好。但是一旦到了测试数据集上就不行了。红色线是三次函数,但是蓝色的线却是二次函数。vc维太高,就是学习器复杂度很高,根据vc维理论,测试数据上的结果,由两方面因素决定,一原创 2016-03-23 21:30:45 · 1448 阅读 · 0 评论 -
机器学习:SVM学习笔记(三)
机器学习:SVM学习笔记(三) 前面在谈到SVM的时候,谈到了SVM中的权重W最终可以表示成为训练数据的线性组合。恰好,PLA和逻辑回归的最终的权重系数也可以表示成为训练数据的权重组合,如下图所示。 不存在这么完美的恰巧,为什么上面的表达可以表示成为这样的呢?这里是因为上面的三个model的目标函数的组成是有相同之处的:L2正则化+约束条件。必须的原创 2016-04-05 16:02:18 · 910 阅读 · 0 评论 -
python中的list和array的不同之处
python中的list和array的不同之处 python中的list是python的内置数据类型,list中的数据类不必相同的,而array的中的类型必须全部相同。在list中的数据类型保存的是数据的存放的地址,简单的说就是指针,并非数据,这样保存一个list就太麻烦了,例如list1=[1,2,3,'a']需要4个指针和四个数据,增加了存储和消耗cpu。原创 2016-04-04 09:51:41 · 164231 阅读 · 4 评论 -
机器学习:SVM学习笔记
机器学习:SVM学习笔记 svm理论在很早以前就有所接触,只不过感觉掌握不是很透彻,今儿上课老师讲了一次,就重新回顾一下。 早在svm之前,算法的提出都是基于vc维的泛化理论。在增加了vc维的,提升了模型的复杂度,减小了model的泛化能力。为了增强泛化能力,,添加了对权重的惩罚因子,减小了过拟合.但是svm的目标函数原创 2016-03-29 16:00:36 · 4547 阅读 · 0 评论 -
机器学习:KMeans学习笔记
机器学习:KMeans学习笔记# -*- coding: utf-8 -*-"""Spyder EditorThis is a temporary script file."""from numpy import *def loaddataSet(fileName): file=open(fileName) dataMat=[] for原创 2016-03-17 17:09:26 · 1048 阅读 · 0 评论 -
机器学习:逻辑回归python实现
机器学习:逻辑回归python实现 逻辑回归和PLA都可以用来分类,他们之间最大的区别就是,前者对分错的数据进行惩罚的时候是有一定的比率的,也就是说,当前数据分错的越来厉害,那就对当前的数据极大惩罚,要是错的程度小,那就对他的惩罚稍微的小点儿。但是后者PLA就是当前数据如果分对了就不惩罚,分错了就惩罚,没有强度之分。看看下图谈谈损失函数的区别: 上面的图原创 2016-03-15 18:52:11 · 1395 阅读 · 0 评论 -
spark大数据入门(一)如何在windows下部署spark开发环境
spark机器学习: spark现如今在大数据领域有着很重的地位,lz最喜欢的是基于spark之上的机器学习,也就是MlIB,这是基于分布式环境下的机器学习的开发库,简单的来说就是开发及机器学习的API。稍微的提及一下,分布式环境下的机器学习算法的开发,算法核心原理并不会发生变化,但是由于是大量的数据,我们需要的是注意如何减小系统IO流的压力。举个例子来说,我们知道随机森林下面会涉原创 2015-12-07 14:58:38 · 11070 阅读 · 0 评论 -
windows下sklearn的安装
windows下sklearn的安装第一步:python的安装 首先去python官网下载并且安装相应的python版本,大部分情况下面我们都是安装python2.7版本,下载之后点击安装就可以。在环境变量中配置python执行文件的目录。我的path目录下面的python相关的目录:\Python27;C:\Python27\Scripts;原创 2015-12-07 09:17:50 · 10786 阅读 · 0 评论 -
神经网络入门(二)为什么我的算法跑得这么慢?
哈哈哈原创 2015-12-20 19:17:38 · 10057 阅读 · 1 评论 -
神经网络入门(二)卷积网络在图像识别的应用
卷积的概念 线性滤波可以说是图像处理最基本的方法,它可以允许我们对图像进行处理,产生很多不同的效果。做法很简单。首先,我们有一个二维的滤波器矩阵和一个要处理的二维图像。然后,对于图像的每一个像素点,计算它的邻域像素和滤波器矩阵的对应元素的乘积,然后加起来,作为该像素位置的值。这样就完成了滤波过程。具体地说一个滤波器就是一个n*n的矩阵,和对应的图像进行卷积,可以得到图像的大致特征,例原创 2015-12-20 09:48:36 · 19853 阅读 · 0 评论 -
神经网络入门学习(一(
人工神经网络 最近,有一篇关于微软亚洲研究院模式识别小组利用残差神经网在2015 ImageNet计算机识别挑战赛中拼接深层神经网最新技术的突破,以绝对的优势获得图像分类。图像定位以及图像检索全部三个项目的冠军,成功的关键就是这个网络丝的深度达到了125层之神(深),我们知道之只包含一层隐含层的神经网络可以训练处大部分连续性函数,随着隐含层个数可以进行无限地逼近理论数值原创 2015-12-18 10:15:46 · 3055 阅读 · 1 评论 -
tensorflow使用不同的学习率
tensorflow使用不同的学习率var_list1 = [variables from first 5 layers]var_list2 = [the rest of variables]train_op1 = GradientDescentOptimizer(0.00001).minimize(loss, var_list=var_list1)train_op2 =原创 2017-08-09 13:08:38 · 5124 阅读 · 1 评论