2016年08月_丁磊_Ml

原创 win10下安装wingw

主要是按照这个方式装的，但是也有一定出入。http://blog.sina.com.cn/s/blog_492abb0f0100fwnu.html 还可以看看http://blog.csdn.net/nivana999/article/details/5494877以下红色部分是摘抄上面大神的部分内容，并进行了修改`安装软件：1，mingwrt-3.15.1，通过网络安

2016-08-21 08:27:59 6388

原创 win10下安装xgboost

在baidu下面搜索了好多方法，都没有成功，在这之间，安装了minGW,真是一把辛酸泪。见这后来一哥们直接发了份xgboost.egg文件。（在自己的网盘里）先是在cmd下面安装，然后又在anacanda的spyder下面easy-install 了一次。后来pip list 发现，python库里有xgboost文件，但是import的时候，就是报错。万般无奈，就没管它，睡觉去了。第二天，

2016-08-21 08:15:01 632

原创 soft-svm的理解+logistic 与SVM结合输出概率值+logistic 用到z域

软svm就是L2规范化soft-svm的errsvmerr_svm是err01err_01的上限且svm就是对logistic regression 进行L2处理形式logistic 与SVM结合用svm输出概率值logistic回归解z域的情况一定要在z域解logistic回归的问题 Kernel Logistic Regression 与svm无关只是借用其kernel的思想软svm就

2016-08-15 12:01:51 1083

原创 svm系列之核函数+软边界

软边界svm一般形式软边界svm的对偶式软边界svm的kernel函数软边界svm一般形式前面Hard-Margin svm 的一个缺点就是会产生过拟合现象。特别是当使用核函数或者对偶的svm的时候，如果要求必须把数据点都区分的话，就会很任意发生过拟合现象。由于有的数据是有噪声的，可能还是离群点，如果一定要求所有的点都必须分对的话，即，那么就有可能把误差带进去。所以我们想的是，把条件放

2016-08-15 10:21:15 2272

原创 svm系列之核函数

kernel svm其实阻碍以上两种svm进行的原因就是因为在处理非线性的情况下我们要把x通过映射函数xPhi x映射到z域里由于是处理非线性所以是将低维度映射到高位可是映射后变量的特征会飞快的增加有的时候可能达到无穷有点极端但是通过核函数连无穷的变量也能够解决由于特征非常多那么ynwTx1y_nwT Phi x1 线性svmzTzzTz对偶的svm二者的计算量就会很大很大很大常见的kernel

2016-08-13 23:51:12 2177

原创 svm系列　　之　对偶形式解决非线性数据

之前博客续http://blog.csdn.net/mosbest/article/details/52017312 　上面的博客讲到，svm线性形式为　　　只需将上面的表达式转化为　标准的　二次规划形式，输入参数，相应的软件就可以帮我们把最佳解求出来．可是，上面的方程仅仅适用于　线性可分的数据，如果遇到非线性的数据，那么就应该用之前讲的，将ｘ映射到高维的函数上处理，使用映射函数Φ(x)\

2016-08-13 20:43:40 1095

原创验证法：如何选择模型，参数等

简单的验证 single validation这个与以前的想法有些出入交叉验证　cross validation留一法k-fold　交叉验证总结这些知识点以前大部分都知道，就简单记一下。简单的验证 single validation(这个与以前的想法有些出入)我们并不能完全依靠我们的EinE_{in}来评价模型的好坏，一因为仅仅靠EinE_{in}会很容易过拟合所以，想法就是　留出一部分

2016-08-12 15:27:52 1629

原创 regularization 规范化（L1，L2等等）：加惩罚函数降低过拟合

这称为岭回归一般模型选择最好的惩罚函数L1L2 规范在上一节的课程中，我们讲到右图用的是１０次方程去拟合，左图用的是２次方程去拟合。很显然１０次方程发生过拟合现象。那么我们就选择化简模型，将１０次模型转化为２次模型。我们先假设将x域映射到z域的函数Φ(x)\Phi (x)为(对于所有的非线性模型，都存在映射函数Φ(x)\Phi (x)) 那么１０次模型和２次模型的表达式分别

2016-08-12 12:05:24 8202

原创过拟合的原因＋处理方法

过拟合的原因 1. 我们得到的模型g 太复杂。ｆ很小，g 太大，会过拟合 2. 原本的模型（目标函数）ｆ太复杂　。ｇ达不到f的形式，也会产生过拟合。模型ｆ太复杂，其实也是一种噪声。 3. 数据的 noise 太大。(所以，有问题的数据一定要删除掉，不然模型就会严重错误。就像那次　仓库优化的项目一样)　这种情况下２做的比１０好 4. 数据量受限。我们现在举两个例子。　这里，

2016-08-11 23:26:45 16815 1

原创非线性转换

我们之前的课程都是假设数据是线性可分的，那么我们就可以用一条直线将其分开。比如，想这样然而现实生活中并不是这样的　像上面的那张图，无论我们用怎样的线性模型都无法将其很好的分开。但是我们发现一个圆可以很好的解决这个问题他的分类器方程为那么我们把1,x21x_1^2，x22x_2^2设定为z0z_0,z1z_1,z2z_2,就相当于得到了一条关于z的线性方程。

2016-08-11 16:22:38 8601

原创 linear regression for classification +随机梯度下降+多分类之logistic回归+多分类之线性分类投票法

将线性回归 logistic 回归用在分类上面随机梯度法 SGDSGD logistic回归与PLA的关系用logistic回归做多分类问题用线性分类投票法做多分类问题 1对1 one versus one将线性回归，logistic 回归用在分类上面我们回顾一下上节所学习的内容。总共学习了三种线性模型（线性分类，线性回归，logistic 回归）,他们的核心都是他们三

2016-08-10 19:39:13 2554

原创 logisitic 回归 +极大似然法 + 梯度下降法 (迭代优化)

logistic 回归logistic 回归的Ein E_in 极大似然法梯度下降法所以logistic回归算法实现为logistic回归是分类问题。前面我们讲的分类问题的输出都是 “yes”或者“no”。但是在现实生活中，我们并不是总是希望结果那么肯定，而是概率（发生的可能性）。比如，我们希望知道这个房子在第三个星期被卖出去的概率。那么以前的分类算法就无法使用了，这时logistic 回归

2016-08-09 19:05:18 3531

原创线性回归 linear regression

其实就是对我们的特征x进行加权w再求和罢了。他的误差计算公式为那么就是想最小化err(y⏞,y) err(\overbrace{y},y). 我们用矩阵的计算方法，其实可以直接求得觉得这个推导，吴恩达老师的cs229讲的比林轩田老师讲的好，吴恩达来说用的是矩阵迹的方法trace()。linear regr

2016-08-09 15:07:17 730

原创 noise and error

我们前面讲的所有东西都没有把数据的noise 考虑进去。即都是假设x是服从未知的P(X)P(X)分布（分布不用知道），用最标准的目标函数f（f不用知道的），得到其对应的y，然后从中抽取N个数据训练模型（其他的我们数据也不知道）。可是如果数据有noise的话，我们并不能确定我们手里的y就是正确的(即是f给的)。那我们该怎么处理呢？？方法就是认为y是一个目标分布，.即原来是

2016-08-08 10:53:29 1165

原创 VC维的物理意义

vc维的物理意义

2016-08-07 15:26:12 1613

原创 VC Dimension (VC 维)

vc维

2016-08-06 16:51:26 1803

原创泛化理论（举一反三）

VC维

2016-08-05 18:05:36 3784

原创操作系统学习笔记--系统启动流程

本次是在学习清华大学 os课后，做的一些笔记，大部分都是引用了老师的原话，只是做了简单的修改！！！粗略版我们知道，操作系统是放在磁盘上的，而电脑的指令只能再cpu里执行，cpu在掉电的时候所有的内容都要清空。那到底是什么让操作系统加载到我们的cpu上面，供我们的使用的呢？？电脑执行的第一条指令是从哪里来的呢？？答案就是，电脑cpu分为两部分，一部分为RAM 随机访问存储，还有一个ROM只读存储。

2016-08-03 21:17:08 1840

原创训练与测试

无

2016-08-02 18:16:42 706

原创机器学习的可行性

机器学习的可行性

2016-08-02 13:47:53 903

原创华盛顿大学--初探深度学习

深度特征，迁移学习

2016-08-01 16:09:46 748

丁磊_ml的博客