机器学习
cColdTea
再丑也要擦口红
展开
-
统计学习方法(五)
懒得总结,看的都是概念,不知道怎么应用,明天上实例吧。六、logistic regression与最大熵模型1、逻辑斯蒂回归模型逻辑斯蒂分布F(x)=1 /(1+exp(-x-u)/r )逻辑斯蒂回归模型:P(Y=1 | x)=exp(wx+b)/(1+exp(wx+b)):称为对数模型(输出Y=1的对数几率是输入x的线性函数)2、模型参数估计(P79)写出似然函数原创 2017-10-17 20:47:02 · 185 阅读 · 0 评论 -
Mac的xgboost安装
lz又是拿来主义啦,亲测可行最近在mac上用到xgboost库,安装时遇到颇多大坑,网上查了很多答案几乎都是win上的问题,没遇到理想的,自己也就摸着石头把几个大坑给填了,总结一下,给后人少走点弯路。1.错误倘若直接 pip install xgboost时,会出现Command "python setup.py egg_info" failed with error原创 2017-11-09 00:27:36 · 298 阅读 · 0 评论 -
统计学习方法(四)
这一章看的有点晕,心塞,毫无学习动力,概念是简单的,做题是麻烦的五、决策树1、if - then 规则由决策树的根节点到叶节点的每一条路径都可以构建一个规则:路径的内部节点特征对应着规则的条件。2、决策树学习本质是从训练数据集中归纳出一组分类规则,算法常用有ID3、C4.5、CART3、特征选择的参数定义了熵(H ( X ) )与条件熵(H (Y | X原创 2017-10-15 11:57:19 · 246 阅读 · 1 评论 -
将自己的图像数据转为mnist可用
自己有一些图像数据,想在TensorFlow上跑,但是需要预处理,于是昨天弄了一会才把预处理弄完,很渣,仅供参考。利用pandas.read_csv( )之后,变成了x_train(None,784)与y_train(None,1)【label标志】,导入之后是dataFrame格式,现在要把y_train变为(None,10)。1、先导入数据x_data = pd.read_原创 2017-11-17 11:05:39 · 6504 阅读 · 0 评论 -
机器学习中的范数
这篇文章挺好的,又是拿来主义,连复制粘贴都懒得的我。原创 2017-11-08 10:27:55 · 311 阅读 · 0 评论 -
cs231n笔记
cs231n笔记,知乎翻译全篇(1年前),看起来比看视频快一些。转载 2017-11-19 14:51:04 · 517 阅读 · 0 评论 -
sklearn技巧总结
【转】Scikit-learn技巧(拓展)总结总结的很好,拿来啦。同学说现在都用pytorch,等把TensorFlow框架看完了就学学这个包。使劲长肉中。转载 2017-11-15 18:57:01 · 236 阅读 · 0 评论 -
约束优化方法之拉格朗日乘子法与KKT条件
约束优化方法之拉格朗日乘子法与KKT条件很好的文章,可以用来了解KKT条件,顺带了解拉格朗日对偶转载 2017-12-11 15:01:01 · 311 阅读 · 0 评论 -
关于核函数的理解
scikit-learn 支持向量机算法库使用小结 支持向量机(三)核函数 我们会想,有没有存在一种核函数,他可以表述无限大空间的变换呢?利用一个泰勒展开,就可以拆成一个无线维度的转换了。我们把这个种核函数叫做高斯核函数。(排版花里胡哨的,不喜欢看)学习笔记——支持向量机svm(3)kernel trick(核函数) 面试了几家,发现自己的基础薄弱厉害,还是好好再...原创 2017-12-11 15:58:50 · 552 阅读 · 0 评论 -
rnn的一个例子
直接po代码,简单的rnn加法器,改自github,不用TensorFlow等框架,可实现多位(超过8位)加法。import copy, numpy as npnp.random.seed(0)def sigmoid(x): output = 1 / (1 + np.exp(-x)) return outputdef sigmoid_output_to_de原创 2017-11-22 23:15:30 · 2381 阅读 · 0 评论 -
神经网络入门
原文链接获取代码:接下来,为了匹配文章的内容,所有的代码都会在Github上以iPython笔记的形式提供。本文中我们会从头实现一个简单的3层神经网络。我们不会推导所有的数学公式,但会给我们正在做的事情一个相对直观的解释。我也会给出你研读所需的资源链接。这里假设你已经比较熟悉微积分和机器学习的概念了。比如,你知道什么是分类和正则化。当然你也应该了解一点优化技巧,如梯度下降是转载 2017-11-17 14:32:43 · 385 阅读 · 0 评论 -
lstm做NER
1、我在网上下载了人民日报语料库199801.txt文件,nerTest将该文档里的全角符号改为半角符号然后利用nerTest_1文件对该语料库进行预处理:将语料库中的英文、数字、不正规的写法去除2、将语料库分为train、test、valid数据集(7:2:1)3、将语料库中的word与tag分开,然后将所有的word与tag合并排序,并且建立tag_to_id、word_to_id原创 2017-12-06 14:36:51 · 2493 阅读 · 0 评论 -
sklearn中的Pipeline机制
又是看到别人的文章来的原创 2017-11-08 18:41:55 · 537 阅读 · 0 评论 -
机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用
机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用转载 2017-10-30 18:01:42 · 280 阅读 · 0 评论 -
统计学习方法(三)
做了一天实验也是有点心累三、k近邻法3.1、算法概述(多数表决法)在距离实例x最近的k个点中找到最多的y(实例类别),即为所求。3.2、模型距离度量:Lp = (sum( x i - x j ) ^ p ) ^ 1/p3.3、kd树的实现为了对训练数据进行快速的 k 近邻搜索,构造 kd 树:a、先将超矩形区域进行切分(每个数据节点都对应一个 k 维原创 2017-10-12 19:22:42 · 309 阅读 · 0 评论 -
统计学习方法(六)
七、支持向量机支持向量机分为线性可分支持向量机(硬间隔最大化)、线性支持向量机(软间隔最大化)、非线性支持向量机(核技巧+软间隔最大化)。函数间隔与几何间隔(用来表示分类的):r =y(w*x+b)r’ =y(w*x+b)/ || w ||1、线性可分支持向量机输入空间为欧式空间或离散空间,特征空间为欧式空间或希尔伯特空间。分离超平面:w*x+b=0分类决策原创 2017-10-17 21:58:16 · 708 阅读 · 0 评论 -
统计学习方法(七)
吃了好多柚子八、提升方法一个概念的“强可学习”的充要条件是这个概念是“弱可学习”的,可以组合许多“弱可学习”分类器变成一个“强可学习”分类器。1、AdaBoost算法先做一个弱分类器,然后计算误差率,在针对每个训练数据改变权值分布,然后与之前的分类器线性叠加,最后得到一个误差率小于阈值的强分类器。2、提升树模型提升方法实际采用加法模型(基函数的线性组合),最后得到提原创 2017-10-18 15:23:16 · 176 阅读 · 0 评论 -
基尼系数和熵在公平指数测量中的比较
1、写得还是很详细的,基尼指数是分类之后的概率(线性),当一个可能的测量值为一类时,与香农熵(对数)差别不大。2、基尼指数可以用在连续数据中,香农熵用在分离数据中原创 2017-10-27 10:04:42 · 2117 阅读 · 0 评论 -
统计学习方法(二)
希望这个月能啃完这本书二、感知机1、感知机模型f(x)=sign(w·x+b)【+1、-1】2、数据集分为线性可分数据集、线性不可分数据集3、学习策略对于M(误分类点的集合)构建一个损失函数(每个误分类点到超平面的距离和),当损失函数最小时,即为所求的超平面。4、算法步骤选取初值、在训练集中选取误分类点的数据(若没有误分类点则结束算法)、随机原创 2017-10-11 17:35:45 · 270 阅读 · 0 评论 -
统计学习方法(一)
因为之前看过吴恩达的机器学习的入门级视频,所以这本书的前几章看起来是很快的。这里只就我觉得是重点的内容记录下来。一、统计学习方法概论1、统计学习三要素模型(参数向量、参数空间的概念)、策略(几个常用的统计函数:0-1loss、quadratic loss、absolute loss、log-loss)、算法2、经验最小化与结构最小化介绍两者区别ps. 条件分布概原创 2017-10-10 18:55:10 · 329 阅读 · 0 评论 -
PCA特征提取与人脸识别
写得很好介绍在这篇文章中,我们讨论主成分分析(PCA)是如何工作的,以及它如何被用来作为分类问题的降维技术。在这篇文章的末尾,出于证明的目的提供了Matlab源代码。在前面的文章中,我们讨论了所谓的维数诅咒,表明在高维空间分类器倾向于过度拟合训练数据。接下来产生的问题是哪些特征应该保留,哪些应该从高维特征向量中删除。如果此特征向量的所有特征是统计独立的,可以简单地从这个向量中...转载 2017-10-29 10:06:42 · 11953 阅读 · 2 评论 -
scikit-learn一些常用算法
这里写了一些常用算法手册原创 2017-11-07 09:20:55 · 725 阅读 · 0 评论 -
关于SVM
网上有好多svm的详解,包括sklearn里面的svm详解:机器学习十大算法总览(含Python3.X和R语言代码)支持向量机(三)核函数(这篇不错)转载:scikit-learn学习之SVM算法感觉自己真实拿来主义啊都不操心的原创 2017-11-07 18:13:47 · 292 阅读 · 0 评论 -
奇异值理解
如何白话理解奇异值这一篇是大家都推荐的,但我看了之后无法应用:机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用底下是FYI:1、矩阵特征值分解与奇异值分解含义解析及应用2、利用SVD简化数据3、原理及相关推导原创 2017-10-31 09:00:34 · 454 阅读 · 0 评论 -
python——linalg说明
先给文档页:说明文档linalg = linear + algebra范数是对向量(或者矩阵)的度量,是一个标量(scalar):norm(x, ord=None, axis=None, keepdims=False)参数说明计算方法默认二范数:ℓ2x21+x22+…+x2n‾‾‾‾‾‾原创 2017-11-07 21:17:24 · 12527 阅读 · 1 评论 -
mnist数字集识别 xgboost+cnn
因为之前想做字母识别,没找到训练集(找到的有点少),所以现在先写了点xgboost与cnn训练mnist训练集。效果挺好,但是问题是自己有一些数字图片,也需要识别,比如下面,但是效果就很差,后来发现是因为数字不是很居中...后来做了些前期图片预处理,不知道有没有什么方法不用做预处理的。两个方法的代码都放下来了,数据集就是mnist的。很乱,懒得整理,将就看看吧。反正挺简单的。接下来准备...原创 2018-12-06 11:12:07 · 2987 阅读 · 7 评论