机器学习笔记_cqychen的博客-CSDN博客

机器学习笔记

关注

文章平均质量分 90

关注数：文章数：74 文章阅读量：141073 文章收藏量：402

作者: cqychen

这个作者很懒，什么都没留下…

展开

MNIST及FASHION MNIST 数据读取

概要代码结果展示概要mnist 数据集链接：http://yann.lecun.com/exdb/mnist/ fashion_mnist:https://github.com/zalandoresearch/fashion-mnist mnist 已经被用烂了，也太简单了。所以现在准备采用fashion_mnist。两者的读取方式完全一致。这里以fashion mnist作为例子。Fa

原创 2018-05-05 11:33:19 · 25155 阅读 · 7 评论
林轩田之机器学习课程笔记（ combining predictive features之 random forest）（32之26）

概要随机森袋外估计特征选择随机森林实战欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 对于模型融合可以参考： http://scikit-learn.org/stable/modules/ensemble.html 随机森林参考：分类： http://scikit-learn.org/stable/modules/generated/sk

原创 2018-01-03 11:49:59 · 439 阅读 · 0 评论
Kaggle （Bike Sharing Demand）top20%

数据探探数据总览日期季节是否节假日是否工作日天气温度感觉的温度湿度风速各个特征相关系数特征工程离群点剔除目标的正态化日期计算归一化类比型数值型模型调优Ridge 和lasso随机森林GBRGradientBoostingRegressor提交待改进参考连接Kaggle （Bike Sharing Demand）* 20%*题目： https://ww

原创 2017-12-19 15:44:30 · 3444 阅读 · 0 评论
林轩田之机器学习课程笔记（ how can machines learn之nonlinear transformation）（32之12）

概要二次式假设空间非线性转换非线性转换的代价结构化的假设空间集合欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节讲到了逻辑回归问题用于二分类，而且将二分类问题拓展到了多分类的问题。但是这些假设空间都是线性的，本节将线性的空间映射到非线性上。二次式假设空间在线性的假设空间中，复杂度是受到控制的。但是如果数据是线性不可分的呢？如下图：如何来进

原创 2017-12-27 11:19:49 · 238 阅读 · 0 评论
林轩田之机器学习课程笔记（ combining predictive features之 decision tree）（32之25）

概要决策树假设空间决策树演算法决策树之卡特算法决策树实战欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 对于模型融合可以参考： http://scikit-learn.org/stable/modules/ensemble.html 决策树参考： http://scikit-learn.org/stable/modules/generate

原创 2018-01-02 18:05:09 · 486 阅读 · 0 评论
林轩田之机器学习课程笔记（ how can machines learn之linear models for classification）（32之11）

概要通过线性模型进行二分类随机梯度下降通过逻辑回归进行多分类多分类与二分类欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节课讲述了逻辑回归，分析了逻辑回归的损失函数，采用了梯度下降的方式来求解。这节进行了延伸。通过线性模型进行二分类线性模型我们知道有线性回归以及逻辑回归。我们将三者的损失函数进行变形，设定s=wTxs=w^Tx，因为这个表示一个加权分

原创 2017-12-27 08:33:49 · 284 阅读 · 0 评论
林轩田之机器学习课程笔记（ combining predictive features之 adaptive boosting）（32之24）

概要为什么要做boosting通过调整权重达到模型多样性Adaptive Boosting算法Adaptive Boosting实战欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 对于模型融合可以参考： http://scikit-learn.org/stable/modules/ensemble.html Adapitve boosting的

原创 2018-01-02 08:39:31 · 593 阅读 · 0 评论
林轩田之机器学习课程笔记（ combining predictive features之blending and bagging）（32之23）

概要为什么要做模型聚合投票制的blending线性以及任意的blendingbagging方式欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 题目可能不全，因为有字数限制，不好意思，可以参考： https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/概要前面讲述了kernel版本的各种模型，包括线性的回

原创 2018-01-01 19:23:05 · 454 阅读 · 0 评论
林轩田之机器学习课程笔记（ how can machines learn之logistic regression）（32之10）

概要逻辑回归问题逻辑回归损失函数逻辑回归损失函数的梯度梯度下降求解欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节课我们求解了线性回归问题，同时采用线性回归问题的解去求解二分类问题，那么本节主要讲解逻辑回归，顺便说一下，在实际工作中逻辑回归会作为一个base line。比如在百度凤巢的ctr中，会收集大量的特征，然后采用逻辑回归求解，现在已经采用深度

原创 2017-12-26 11:40:17 · 339 阅读 · 0 评论
林轩田之机器学习课程笔记（ embedding numerous feature之support vector regression）（32之22）

概要带核函数的岭回归支持向量回归原问题支持向量回归的对偶问题核函数模型总结欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 题目可能不全，因为有字数限制，不好意思，可以参考： https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/概要上节讲到了kernel版本的逻辑回归，同时证明了L2的逻辑回归和sof

原创 2017-12-31 18:19:05 · 387 阅读 · 0 评论
林轩田之机器学习课程笔记（ how can machines learn之linear regression）（32之9）

概要线性回归问题线性回归算法问题推广线性回归处理二分类问题欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节课我们讲到了对于任意的存在噪音以及错误的数据中，vc界是可以学习的。那么当我们需要预测的东西不是两个分类，而是一个实数呢？比如同样在信用卡授信中，现在的问题不是是否发放信用卡，而是发放多少?有的人发放5W，有的人10W，那么这个怎么来确定呢？

原创 2017-12-26 08:29:13 · 282 阅读 · 0 评论
林轩田之机器学习课程笔记（ embedding numerous feature之 kernel logistic regression）（32之21）

概要SVM模型用于正则化SVM和逻辑回归SVM进行软间隔二分类问题kernel版本的逻辑回归欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 题目可能不全，因为有字数限制，不好意思，可以参考： https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/概要上节讲到了soft-margin的SVM，其目的还是

原创 2017-12-31 12:13:24 · 375 阅读 · 0 评论
林轩田之机器学习课程笔记（ embedding numerous feature之 soft-margin support vector machine）（32之20）

概要原问题及其动机对偶问题软间隔的信息模型选择欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 题目可能不全，因为有字数限制，不好意思，可以参考： https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/概要上节讲到了kernel，目的就是将映射到高维然后求解，转换为了在低维度空间内积然后通过kernel

原创 2017-12-30 18:42:55 · 361 阅读 · 0 评论
DistBelief 框架下的并行随机梯度下降法 - Downpour SGD

from:http://blog.csdn.net/itplus/article/details/31831661 可以阅读：http://martin.zinkevich.org/publications/nips2010.pdf SDG的并行算法，适用于采用SGD进行优化的算法，比如LR，神经网络等。本文是读完 Jeffrey Dean, Greg S. Corrado 等人的文章 Larg

转载 2017-12-30 18:38:22 · 850 阅读 · 0 评论
林轩田之机器学习课程笔记（ embedding numerous feature之kernel support vector machine）（32之19）

概要核技巧多项式核高斯核核函数对比欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 题目可能不全，因为有字数限制，不好意思，可以参考： https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/概要上次讲到了SVM的对偶形式，可以通过求解SVM的对偶问题来求解SVM。主要是当进行高维度的特征映射，很难求解，

原创 2017-12-30 13:52:11 · 319 阅读 · 0 评论
林轩田之机器学习课程笔记（why can machines learn之noise and error）（32之8）

概要目标函数是一个概率分布有噪音损失函数算法的损失函数带权重的分类欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节课主要讲的是VC维，这是机器学习中很重要的概念。本节课重要讲的是存在噪音和错误的数据的时候，机器学习会如何表现。目标函数是一个概率分布(有噪音) 我们在前面的假设就是资料来源是一个完美的target。就是我们收集的信息有造影。比如在

原创 2017-12-25 11:22:41 · 357 阅读 · 0 评论
林轩田之机器学习课程笔记（why can machines learn之the VC dimension）（32之7）

概要VC维的定义PLA的VC维VC维的物理直觉VC维的解释欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节讲到了一般化理论，当假设空间中存在断点，资料够多的时候，那么我们可以保证Ein和EoutE_{in} 和E_{out}接近。VC维的定义上节课我们证明了VC 边界。同时，根据霍夫丁不等式；当 1）假设空间存在断点 2）资料足够大

原创 2017-12-25 08:03:33 · 488 阅读 · 0 评论
简单理解与实验生成对抗网络GAN(转)

[toc]from: [这里写链接内容](http://blog.csdn.net/on2way/article/details/72773771) 之前GAN网络是近两年深度学习领域的新秀，火的不行，本文旨在浅显理解传统GAN，分享学习心得。现有GAN网络大多数代码实现使用python、torch等语言，这里，后面用matlab搭建一个简单的GAN网络，便于理解GAN原理。GAN的

转载 2017-12-27 23:03:03 · 364 阅读 · 0 评论
林轩田之机器学习课程笔记（ how can machines learn better之hazard of overfitting）（32之13）

概要什么是过拟合噪音和数据集大小所扮演的角色确定性的噪音如何处理过拟合欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节讲到了将原始的数据通过映射到另外的空间，使得数据集的维度增大，VC维也增大，模型的复杂度增大。这样会导致EoutE_{out}和EinE_{in}有变大的趋势。本节课就针对这样的问题进行详细讨论。什么是过拟合比如有5个资料点，我们采用

原创 2017-12-28 08:35:18 · 213 阅读 · 0 评论
Kaggle 机器学习竞赛冠军及优胜者的源代码汇总(转)

参考：http://ndres.me/kaggle-past-solutions/ http://shujianliu.com/kaggle-winning-code.html http://www.chioka.in/kaggle-competition-solutions/ 建议参考这三个链接，因为都保持最新的题目跟踪，下面的是三年前的题目了。不是最

转载 2018-01-19 18:30:12 · 4674 阅读 · 0 评论
本博客导航

数学相关林轩田机器学习课程笔记深度学习hinton课程笔记整理中深度学习kaggleNLP算法实现other数学相关机器学习需要线性代数知识 SVD介绍对偶问题 PCA 仿射变换核函数凸优化林轩田机器学习课程笔记林轩田之机器学习课程笔记（when can machines learn之learning problem）（32之1）

原创 2018-01-05 21:41:12 · 640 阅读 · 1 评论
python 实现周志华机器学习书中 k-means 算法

hello，all上节采用python实现了决策树，本节使用python实现k-means算法，后一节将会采用map-reduce实现k-means算法算法程序如下：算法代码如下：# coding=utf-8import pprintimport unioutimport mathfrom collections import Counterimp

原创 2017-05-02 13:36:32 · 6449 阅读 · 4 评论
林轩田之机器学习课程笔记（ distilling hidden features之final）（32之32）

概要特征提取技巧kernel 转换aggravatiton 转换自动提取特征低维度转换优化技巧最优化问题转换子问题求解方式过拟合处理方式踩刹车方式盯住仪表盘机器学习实践欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 本次的课程笔记完毕。后面的课程笔记主要是hinton大神的深度学习课程。希望在看问题之前看看机器学习的处理流程，这样流

原创 2018-01-05 21:07:01 · 343 阅读 · 0 评论
林轩田之机器学习课程笔记（ distilling hidden features之matrix factorization）（32之31）

概要线性网络假设空间基本的矩阵因子分解随机梯度下降求解特征提取模型总结欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 推荐FM和FFM文章，现在主要用于推荐系统中：https://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.html 深度学习书籍推荐：htt

原创 2018-01-05 17:43:12 · 423 阅读 · 0 评论
林轩田之机器学习课程笔记（ embedding numerous feature之dual support vector machine）（32之18）

概要对偶SVM的动机拉格朗日对偶SVM解决对偶SVM对偶SVM背后的理论欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 题目可能不全，因为有字数限制，不好意思，可以参考： https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/概要上节课讲到了线性的支持向量机，采用胖胖的分割线作为分类器。要进行求解，首

原创 2017-12-29 16:13:54 · 381 阅读 · 0 评论
林轩田之机器学习课程笔记（ distilling hidden features之radial basis function network）（32之30）

概要RBF网络假设空间RBF网络学习算法k-means算法k-means与RBF网络算法实践欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 深度学习书籍推荐：https://item.jd.com/12128543.html 深度学习课程推荐：https://www.coursera.org/learn/neural-networks/home/w

原创 2018-01-05 12:20:19 · 392 阅读 · 0 评论
林轩田之机器学习课程笔记（ embedding numerous feature之linear support vector machine ）（32之17）

概要最大化间隔超平面标准最大化间隔问题支持向量机支持向量机背后的理论欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 题目可能不全，因为有字数限制，不好意思，可以参考： https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/概要本课程前面的16节课是机器学习基石，后面的16节课是机器学习技法。介绍更多的机器

原创 2017-12-29 11:35:30 · 350 阅读 · 0 评论
Learning to Rank(LTR)(转)

Learning to RankLTR声明摘要背景排序学习系统框架排序学习特征选择2训练数据的获取3人工标注搜索日志公共数据集训练方法23单文档方法Pointwise文档对方法Pairwise文档列表方法Listwise排序学习效果评价Referencefrom:http://blog.csdn.net/clheang/article/details/45674989

转载 2018-01-04 21:13:27 · 953 阅读 · 1 评论
林轩田之机器学习课程笔记（ distilling hidden features之deep learning）（32之29）

概要深度神经网络自动编码机去噪自动编码机主成分分析欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 深度学习书籍推荐：https://item.jd.com/12128543.html 深度学习课程推荐：https://www.coursera.org/learn/neural-networks/home/welcome Tensor

原创 2018-01-04 19:18:34 · 437 阅读 · 0 评论
林轩田之机器学习课程笔记（ how can machines learn better之three learning principles）（32之16）

概要奥卡姆剃刀抽样偏差数据偷看三的力量欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节讲到了交叉验证，采用这种方法模拟做测试的过程，从而调整超参数。本节要讲到做机器学习的三个锦郎妙计。奥卡姆剃刀An explanation of the data should be made as simple as possible, but no simple

原创 2017-12-29 09:19:36 · 285 阅读 · 0 评论
R语言中管道操作 %>%, %T>%, %$% 和 %<>%（转）

1 magrittr介绍2 magrittr安装3 magrittr包的使用设置随机种子开始4 magrittr包的扩展功能from : http://blog.csdn.net/fairewell/article/details/72878107前言使用R语言进行数据处理是非常方便的，几行代码就可以完成很复杂的操作。但是，对于数据的连续处理，还是有人觉得代码不好看，要么是长长的函数嵌套调

转载 2018-01-13 16:54:42 · 3450 阅读 · 1 评论
大数据的新机遇：我的分布式机器学习故事

from ：http://www.thebigdata.cn/JiShuBoKe/13723.html 　　一、前言　　从毕业加入Google 开始做分布式机器学习，到后来转战腾讯广告业务，至今已经七年了。我想说说我见到的故事和我自己的实践经历。这段经历给我的感觉是：虽然在验证一个新的并行算法的正确性的时候，我们可以利用现有框架，尽量快速实现，但是任何一个有价值的机器学习思

转载 2017-12-28 20:21:32 · 768 阅读 · 0 评论
林轩田之机器学习课程笔记（ how can machines learn better之validation）（32之15）

概要模型选择问题交叉验证留一法交叉验证K折交叉验证欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节课我们讲到了要避免过拟合，可以添加正则化项来缩放我们的假设空间，这样减少模型的复杂度，从而避免过拟合。还有一个问题就是如何选择需要的λ\lambda.模型选择问题当我们需要使用一个机器学习算法去解决一个问题的时候，有很多需要去考虑，就假设进行一个二分类问

原创 2017-12-28 16:38:31 · 263 阅读 · 0 评论
林轩田之机器学习课程笔记（ distilling hidden features之neural network）（32之28）

概要为何要构造多层神经网络神经网络的假设空间神经网络的学习算法优化以及正则化权重消减法早停法dropout欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 深度学习书籍推荐：https://item.jd.com/12128543.html 深度学习课程推荐：https://www.coursera.org/learn/neural-networ

原创 2018-01-04 14:37:45 · 369 阅读 · 0 评论
林轩田之机器学习课程笔记（ how can machines learn better之regularization）（32之14）

概要正则化假设空间权重递减正则化正则化和VC理论一般的正则化欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节课讲到了机器学习中发生了过拟合现象，当资料量不多和模型过于复杂，有噪音就容易发生过拟合，本节主要讲解如何应对过拟合现象。正则化假设空间首先看过拟合现象：能不能从高次的多项式退回到低次的多项式呢？假设空间从高次回到低次，那么假设空间的

原创 2017-12-28 14:33:22 · 227 阅读 · 0 评论
林轩田之机器学习课程笔记（ combining predictive features之gradient boosted decision tree）（32之27）

概要Adaptive Boost 决策树如何优化AdaBoost决策树GBDT模型融合的总结欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 对于模型融合可以参考： http://scikit-learn.org/stable/modules/ensemble.html GBDT参考： http://scikit-learn.org/stabl

原创 2018-01-03 21:18:41 · 408 阅读 · 0 评论
windows下非编译安装XGBoost

在各种比赛还是神马东东的机器学习算法中，XGBoost算作是神器了。但是安装比较麻烦，下载源代码，安装c++编译器，编译。这里介绍非编译的版本。安装飞快。复杂自行编译版本： https://xgboost.readthedocs.io/en/latest/build.html小白版本： http://www.picnet.com.au/blogs/guido/post/2016/09

原创 2017-12-07 11:56:09 · 178 阅读 · 0 评论
林轩田之机器学习课程笔记（why can machines learn之theory of generalization）（32之6）

概要断点的限制简单条件下的边界函数一般情况下的边界函数简单证明第一步第二步第三步欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要本节主要讲解机器学习的一般化理论。上节中讲到由于在很多的假设空间中，M会变得越来越大，就会导致机器学习无法工作，我们就想通过一个小的m来替代，提出增长函数。那么本节在上节的基础上展开。断点的限制上节中我们知道了集中简单的情

原创 2017-12-24 09:25:17 · 295 阅读 · 0 评论
林轩田之机器学习课程笔记（why can machines learn之training versus testing）（32之5）

概要前文总结有效的切分直线有效的假设空间断点break point欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要本节主要讲训练和测试有什么不一样。上节中说到机器学习不可行，但是有的情况下是可以的。当假设空间有限，同时资料来自某一个分布。本节讲述当假设空间无限的时候会如何。前文总结上节中，我们讲到假如测试资料和训练资料来自同一个分布，如果假设空间有限，那

原创 2017-12-23 20:21:22 · 254 阅读 · 0 评论
NTU-Coursera机器学习:VC Bound和VC维度

from http://blog.csdn.net/songzitea/article/details/43112233Break Point 对成长函数的限制上一讲重点是一些分析机器学习可行性的重要思想和概念，尤其是生长函数(growth function) 和突破点(break point) 的理解(上一节提到的4个成长函数)：假设对于一个问题，minimum break point k =

转载 2017-10-12 07:43:17 · 389 阅读 · 0 评论

机器学习笔记

作者: cqychen

MNIST及FASHION MNIST 数据读取

林轩田之机器学习课程笔记（ combining predictive features之 random forest）（32之26）

Kaggle （Bike Sharing Demand）top20%

林轩田之机器学习课程笔记（ how can machines learn之nonlinear transformation）（32之12）

林轩田之机器学习课程笔记（ combining predictive features之 decision tree）（32之25）

林轩田之机器学习课程笔记（ how can machines learn之linear models for classification）（32之11）

林轩田之机器学习课程笔记（ combining predictive features之 adaptive boosting）（32之24）

林轩田之机器学习课程笔记（ combining predictive features之blending and bagging）（32之23）

林轩田之机器学习课程笔记（ how can machines learn之logistic regression）（32之10）

林轩田之机器学习课程笔记（ embedding numerous feature之support vector regression）（32之22）

林轩田之机器学习课程笔记（ how can machines learn之linear regression）（32之9）

林轩田之机器学习课程笔记（ embedding numerous feature之 kernel logistic regression）（32之21）

林轩田之机器学习课程笔记（ embedding numerous feature之 soft-margin support vector machine）（32之20）

DistBelief 框架下的并行随机梯度下降法 - Downpour SGD

林轩田之机器学习课程笔记（ embedding numerous feature之kernel support vector machine）（32之19）

林轩田之机器学习课程笔记（why can machines learn之noise and error）（32之8）

林轩田之机器学习课程笔记（why can machines learn之the VC dimension）（32之7）

简单理解与实验生成对抗网络GAN(转)

林轩田之机器学习课程笔记（ how can machines learn better之hazard of overfitting）（32之13）

Kaggle 机器学习竞赛冠军及优胜者的源代码汇总(转)

本博客导航

python 实现周志华 机器学习书中 k-means 算法

林轩田之机器学习课程笔记（ distilling hidden features之final）（32之32）

林轩田之机器学习课程笔记（ distilling hidden features之matrix factorization）（32之31）

林轩田之机器学习课程笔记（ embedding numerous feature之dual support vector machine）（32之18）

林轩田之机器学习课程笔记（ distilling hidden features之radial basis function network）（32之30）

林轩田之机器学习课程笔记（ embedding numerous feature之linear support vector machine ）（32之17）

Learning to Rank(LTR)(转)

林轩田之机器学习课程笔记（ distilling hidden features之deep learning）（32之29）

林轩田之机器学习课程笔记（ how can machines learn better之three learning principles）（32之16）

R语言中管道操作 %>%, %T>%, %$% 和 %<>%（转）

大数据的新机遇：我的分布式机器学习故事

林轩田之机器学习课程笔记（ how can machines learn better之validation）（32之15）

林轩田之机器学习课程笔记（ distilling hidden features之neural network）（32之28）

林轩田之机器学习课程笔记（ how can machines learn better之regularization）（32之14）

林轩田之机器学习课程笔记（ combining predictive features之gradient boosted decision tree）（32之27）

windows下非编译安装XGBoost

林轩田之机器学习课程笔记（why can machines learn之theory of generalization）（32之6）

林轩田之机器学习课程笔记（why can machines learn之training versus testing）（32之5）

NTU-Coursera机器学习:VC Bound和VC维度

python 实现周志华机器学习书中 k-means 算法