2017年12月_cqychen

12月 10月 09月 08月 07月 05月 04月 03月

原创林轩田之机器学习课程笔记（ embedding numerous feature之support vector regression）（32之22）

概要带核函数的岭回归支持向量回归原问题支持向量回归的对偶问题核函数模型总结欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 题目可能不全，因为有字数限制，不好意思，可以参考： https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/概要上节讲到了kernel版本的逻辑回归，同时证明了L2的逻辑回归和sof

2017-12-31 18:19:05 381

原创林轩田之机器学习课程笔记（ embedding numerous feature之 kernel logistic regression）（32之21）

概要SVM模型用于正则化SVM和逻辑回归SVM进行软间隔二分类问题kernel版本的逻辑回归欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 题目可能不全，因为有字数限制，不好意思，可以参考： https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/概要上节讲到了soft-margin的SVM，其目的还是

2017-12-31 12:13:24 369

原创林轩田之机器学习课程笔记（ embedding numerous feature之 soft-margin support vector machine）（32之20）

概要原问题及其动机对偶问题软间隔的信息模型选择欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 题目可能不全，因为有字数限制，不好意思，可以参考： https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/概要上节讲到了kernel，目的就是将映射到高维然后求解，转换为了在低维度空间内积然后通过kernel

2017-12-30 18:42:55 360

转载 DistBelief 框架下的并行随机梯度下降法 - Downpour SGD

from:http://blog.csdn.net/itplus/article/details/31831661 可以阅读：http://martin.zinkevich.org/publications/nips2010.pdf SDG的并行算法，适用于采用SGD进行优化的算法，比如LR，神经网络等。本文是读完 Jeffrey Dean, Greg S. Corrado 等人的文章 Larg

2017-12-30 18:38:22 850

原创林轩田之机器学习课程笔记（ embedding numerous feature之kernel support vector machine）（32之19）

概要核技巧多项式核高斯核核函数对比欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 题目可能不全，因为有字数限制，不好意思，可以参考： https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/概要上次讲到了SVM的对偶形式，可以通过求解SVM的对偶问题来求解SVM。主要是当进行高维度的特征映射，很难求解，

2017-12-30 13:52:11 312

原创林轩田之机器学习课程笔记（ embedding numerous feature之dual support vector machine）（32之18）

概要对偶SVM的动机拉格朗日对偶SVM解决对偶SVM对偶SVM背后的理论欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 题目可能不全，因为有字数限制，不好意思，可以参考： https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/概要上节课讲到了线性的支持向量机，采用胖胖的分割线作为分类器。要进行求解，首

2017-12-29 16:13:54 378

原创林轩田之机器学习课程笔记（ embedding numerous feature之linear support vector machine ）（32之17）

概要最大化间隔超平面标准最大化间隔问题支持向量机支持向量机背后的理论欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen 题目可能不全，因为有字数限制，不好意思，可以参考： https://www.csie.ntu.edu.tw/~htlin/course/ml15fall/概要本课程前面的16节课是机器学习基石，后面的16节课是机器学习技法。介绍更多的机器

2017-12-29 11:35:30 346

原创林轩田之机器学习课程笔记（ how can machines learn better之three learning principles）（32之16）

概要奥卡姆剃刀抽样偏差数据偷看三的力量欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节讲到了交叉验证，采用这种方法模拟做测试的过程，从而调整超参数。本节要讲到做机器学习的三个锦郎妙计。奥卡姆剃刀An explanation of the data should be made as simple as possible, but no simple

2017-12-29 09:19:36 284

转载大数据的新机遇：我的分布式机器学习故事

from ：http://www.thebigdata.cn/JiShuBoKe/13723.html 　　一、前言　　从毕业加入Google 开始做分布式机器学习，到后来转战腾讯广告业务，至今已经七年了。我想说说我见到的故事和我自己的实践经历。这段经历给我的感觉是：虽然在验证一个新的并行算法的正确性的时候，我们可以利用现有框架，尽量快速实现，但是任何一个有价值的机器学习思

2017-12-28 20:21:32 766

原创林轩田之机器学习课程笔记（ how can machines learn better之validation）（32之15）

概要模型选择问题交叉验证留一法交叉验证K折交叉验证欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节课我们讲到了要避免过拟合，可以添加正则化项来缩放我们的假设空间，这样减少模型的复杂度，从而避免过拟合。还有一个问题就是如何选择需要的λ\lambda.模型选择问题当我们需要使用一个机器学习算法去解决一个问题的时候，有很多需要去考虑，就假设进行一个二分类问

2017-12-28 16:38:31 262

原创林轩田之机器学习课程笔记（ how can machines learn better之regularization）（32之14）

概要正则化假设空间权重递减正则化正则化和VC理论一般的正则化欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节课讲到了机器学习中发生了过拟合现象，当资料量不多和模型过于复杂，有噪音就容易发生过拟合，本节主要讲解如何应对过拟合现象。正则化假设空间首先看过拟合现象：能不能从高次的多项式退回到低次的多项式呢？假设空间从高次回到低次，那么假设空间的

2017-12-28 14:33:22 226

原创林轩田之机器学习课程笔记（ how can machines learn better之hazard of overfitting）（32之13）

概要什么是过拟合噪音和数据集大小所扮演的角色确定性的噪音如何处理过拟合欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节讲到了将原始的数据通过映射到另外的空间，使得数据集的维度增大，VC维也增大，模型的复杂度增大。这样会导致EoutE_{out}和EinE_{in}有变大的趋势。本节课就针对这样的问题进行详细讨论。什么是过拟合比如有5个资料点，我们采用

2017-12-28 08:35:18 210

转载简单理解与实验生成对抗网络GAN(转)

[toc]from: [这里写链接内容](http://blog.csdn.net/on2way/article/details/72773771) 之前GAN网络是近两年深度学习领域的新秀，火的不行，本文旨在浅显理解传统GAN，分享学习心得。现有GAN网络大多数代码实现使用python、torch等语言，这里，后面用matlab搭建一个简单的GAN网络，便于理解GAN原理。GAN的

2017-12-27 23:03:03 363

原创林轩田之机器学习课程笔记（ how can machines learn之nonlinear transformation）（32之12）

概要二次式假设空间非线性转换非线性转换的代价结构化的假设空间集合欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节讲到了逻辑回归问题用于二分类，而且将二分类问题拓展到了多分类的问题。但是这些假设空间都是线性的，本节将线性的空间映射到非线性上。二次式假设空间在线性的假设空间中，复杂度是受到控制的。但是如果数据是线性不可分的呢？如下图：如何来进

2017-12-27 11:19:49 234

原创林轩田之机器学习课程笔记（ how can machines learn之linear models for classification）（32之11）

概要通过线性模型进行二分类随机梯度下降通过逻辑回归进行多分类多分类与二分类欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节课讲述了逻辑回归，分析了逻辑回归的损失函数，采用了梯度下降的方式来求解。这节进行了延伸。通过线性模型进行二分类线性模型我们知道有线性回归以及逻辑回归。我们将三者的损失函数进行变形，设定s=wTxs=w^Tx，因为这个表示一个加权分

2017-12-27 08:33:49 276

原创林轩田之机器学习课程笔记（ how can machines learn之logistic regression）（32之10）

概要逻辑回归问题逻辑回归损失函数逻辑回归损失函数的梯度梯度下降求解欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节课我们求解了线性回归问题，同时采用线性回归问题的解去求解二分类问题，那么本节主要讲解逻辑回归，顺便说一下，在实际工作中逻辑回归会作为一个base line。比如在百度凤巢的ctr中，会收集大量的特征，然后采用逻辑回归求解，现在已经采用深度

2017-12-26 11:40:17 338

原创林轩田之机器学习课程笔记（ how can machines learn之linear regression）（32之9）

概要线性回归问题线性回归算法问题推广线性回归处理二分类问题欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节课我们讲到了对于任意的存在噪音以及错误的数据中，vc界是可以学习的。那么当我们需要预测的东西不是两个分类，而是一个实数呢？比如同样在信用卡授信中，现在的问题不是是否发放信用卡，而是发放多少?有的人发放5W，有的人10W，那么这个怎么来确定呢？

2017-12-26 08:29:13 275

原创林轩田之机器学习课程笔记（why can machines learn之noise and error）（32之8）

概要目标函数是一个概率分布有噪音损失函数算法的损失函数带权重的分类欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节课主要讲的是VC维，这是机器学习中很重要的概念。本节课重要讲的是存在噪音和错误的数据的时候，机器学习会如何表现。目标函数是一个概率分布(有噪音) 我们在前面的假设就是资料来源是一个完美的target。就是我们收集的信息有造影。比如在

2017-12-25 11:22:41 353

原创林轩田之机器学习课程笔记（why can machines learn之the VC dimension）（32之7）

概要VC维的定义PLA的VC维VC维的物理直觉VC维的解释欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节讲到了一般化理论，当假设空间中存在断点，资料够多的时候，那么我们可以保证Ein和EoutE_{in} 和E_{out}接近。VC维的定义上节课我们证明了VC 边界。同时，根据霍夫丁不等式；当 1）假设空间存在断点 2）资料足够大

2017-12-25 08:03:33 476

原创林轩田之机器学习课程笔记（why can machines learn之theory of generalization）（32之6）

概要断点的限制简单条件下的边界函数一般情况下的边界函数简单证明第一步第二步第三步欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要本节主要讲解机器学习的一般化理论。上节中讲到由于在很多的假设空间中，M会变得越来越大，就会导致机器学习无法工作，我们就想通过一个小的m来替代，提出增长函数。那么本节在上节的基础上展开。断点的限制上节中我们知道了集中简单的情

2017-12-24 09:25:17 290

原创林轩田之机器学习课程笔记（why can machines learn之training versus testing）（32之5）

概要前文总结有效的切分直线有效的假设空间断点break point欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要本节主要讲训练和测试有什么不一样。上节中说到机器学习不可行，但是有的情况下是可以的。当假设空间有限，同时资料来自某一个分布。本节讲述当假设空间无限的时候会如何。前文总结上节中，我们讲到假如测试资料和训练资料来自同一个分布，如果假设空间有限，那

2017-12-23 20:21:22 246

转载文本深度表示模型——word2vec&doc2vec词向量模型（转）

from： https://www.cnblogs.com/maybe2030/p/5427148.html阅读目录1. 词向量2.Distributed representation词向量表示3.词向量模型4.word2vec算法思想5.doc2vec算法思想6.参考内容　　深度学习掀开了机器学习的新篇章，目前深度学习应用于图像和语音已经产生了突破性的研究进展。深度学习一直被人们推崇为一种类似于人

2017-12-23 17:21:01 14072

原创林轩田之机器学习课程笔记（when can machines learn之feasibility of learning）（32之4）

概要机器学习是做不到的通过概率来拯救机器学习概率和机器学习的联系概率和真实机器学习的联系欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节课讲到了机器学习各种各样的类型，本节课会介绍机器学习到底是否可行。机器学习是做不到的？举一个简单例子，如下图这就是最简单的智力测试之类的题目，一般考公务员还有这样的题目，哈哈哈哈。回归正题，那么给到下面的

2017-12-22 22:42:41 410

原创林轩田之机器学习课程笔记（when can machines learn之types of learning）（32之3）

概要不同输出空间Y的学习类型不同的数据标签yny_n的学习类型不同的函数ff的学习类型不同输入空间x的学习类型欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要本课程主要讲解各式各样的机器学习类型，机器学习不仅仅可以解决是非问题，这个我们称为二分问题。不同输出空间Y的学习类型根据输出空间的不同，我们可以将机器学习分为： 1）二元分类问题，这是一个非常重要

2017-12-22 18:33:25 273

原创林轩田之机器学习课程笔记（when can machines learn之learning to answer yes or no）（32之2）

概要感知机模型的假设空间感知机模型的演算法感知机的理论保证感知机如何处理不可分数据欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要本节课程主要是学习是非题目，在机器学习领域中，很多情况就是进行一个二分类，比如是否发信用卡，银行是否贷款，用户会不会点击广告等。这里从一个简单的机器学习模型——感知机模型出发，以是否授予信用卡为例。感知机模型的假设空间根据上节

2017-12-21 21:36:56 430

原创林轩田之机器学习课程笔记（when can machines learn之learning problem）（32之1）

前言课程简介什么是机器学习为什么要用机器学习机器学习的应用机器学习的构成机器学习和其他领域的关系欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen前言其实很早就看完了该课程，看了两遍。在实际的运用中，会发现会慢慢的变成调参侠，比如使用比较火热的XGB，深度学习中的GoogLeNet。调一调，用一用。可以了上线。虽然这些算法的原理都是了解的，但总归是缺点什

2017-12-21 17:04:21 370

转载 SVD 及其应用

2017-12-19 22:16:20 299

原创自然语言处理神器之NLTK安装

这里只是简单的记录下首先直接安装好nltk 然后进入python 下载语料库主要分为： corpora:语料库 book：所用到的一些书籍的资料，作为文档以及其他的三方库。这些资料是很大的，最好准备1G的存储空间。最后注意的是，中文分词，一般采用结巴分词 https://pypi.python.org/pypi/jieba/ 或者 https://nlp.st

2017-12-19 20:52:32 274

原创 Kaggle （Bike Sharing Demand）top20%

数据探探数据总览日期季节是否节假日是否工作日天气温度感觉的温度湿度风速各个特征相关系数特征工程离群点剔除目标的正态化日期计算归一化类比型数值型模型调优Ridge 和lasso随机森林GBRGradientBoostingRegressor提交待改进参考连接Kaggle （Bike Sharing Demand）* 20%*题目： https://ww

2017-12-19 15:44:30 3415

转载 GBDT原理及利用GBDT构造新的特征-Python实现

from : http://blog.csdn.net/shine19930820/article/details/71713680看了许多GBDT构建特征的资料整理而成，具体资料见Reference。背景Gradient BoostingGradient Boosting Decision TreeGBDT应用-回归和分类GBDT构建新的特征思想GBDT与L

2017-12-13 17:45:59 883

转载 Deep Learning, NLP, and Representations 深度学习，自然语言处理以及其表达式

from : http://colah.github.io/posts/2014-07-NLP-RNNs-Representations/Posted on July 7, 2014neural networks,deep learning, representations, NLP,recursive neural networksIntroductio

2017-12-12 22:25:27 569

转载循环神经网络(RNN, Recurrent Neural Networks)介绍

from : http://blog.csdn.net/heyongluoyao8/article/details/48636251循环神经网络(RNN, Recurrent Neural Networks)介绍这篇文章很多内容是参考：http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-int

2017-12-12 22:19:51 352

原创 kaggle titanic 机器学习流程 top30%

机器学习流程解决kaggle上的Titanic 问题。通过数据分析、特征工程、特征选择、模型调优、模型融合等过程。

2017-12-12 16:59:44 1647 2

转载深入FFM原理与实践（美团点评技术）

from : https://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.htmlFM和FFM模型是最近几年提出的模型，凭借其在数据量比较大并且特征稀疏的情况下，仍然能够得到优秀的性能和效果的特性，屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团点评技术团队在搭建DSP的过程中，探索并使用了FM

2017-12-09 21:31:33 837

转载机器学习系统模型调优实战--所有调优技术都附相应的scikit-learn实现

from : http://blog.csdn.net/xlinsist/article/details/51344449引言如果你对机器学习算法已经很熟悉了，但是有时候你的模型并没有很好的预测效果或者你想要追求更好地模型性能。那么这篇文章会告诉你一些最实用的技术诊断你的模型出了什么样的问题，并用什么的方法来解决出现的问题，并通过一些有效的方法可以让你的模型具有更好地性能。介绍数据集

2017-12-08 14:07:17 333

原创 windows下非编译安装XGBoost

在各种比赛还是神马东东的机器学习算法中，XGBoost算作是神器了。但是安装比较麻烦，下载源代码，安装c++编译器，编译。这里介绍非编译的版本。安装飞快。复杂自行编译版本： https://xgboost.readthedocs.io/en/latest/build.html小白版本： http://www.picnet.com.au/blogs/guido/post/2016/09

2017-12-07 11:56:09 178

转载 scikit-learn 逻辑回归类库使用小结

from :http://www.cnblogs.com/pinard/p/6035872.html　　　　之前在逻辑回归原理小结这篇文章中，对逻辑回归的原理做了小结。这里接着对scikit-learn中逻辑回归类库的我的使用经验做一个总结。重点讲述调参中要注意的事项。1. 概述　　　　在scikit-learn中，与逻辑回归有关的主要是这3个类。LogisticRegress

2017-12-04 16:52:14 379

转载通俗理解LDA主题模型（转）

from ：http://blog.csdn.net/v_july_v/article/details/41209515也推荐：LDA漫步指南通俗理解LDA主题模型0 前言印象中，最开始听说“LDA”这个名词，是缘于rickjin在2013年3月写的一个LDA科普系列，叫LDA数学八卦，我当时一直想看来着，记得还打

2017-12-01 21:03:22 510