机器学习
ruofeng133
技术美术
展开
-
机器学习笔记(6)算法可行性研究
由于预测的h并不能那个代替真正的f,所以我们只能估计霍夫丁不等式: P(|v−u|>ε)≤2e−2ε2NP (|v-u|> \varepsilon )\leq2e^{-2\varepsilon ^{2}N} 可以预测出需要多少的样本空间选择合适的样本D D1 D2 … D1126 … D5678 h1 bad bad bad h2原创 2017-11-07 10:03:23 · 2553 阅读 · 0 评论 -
机器学习笔记(9)过拟合详解
由上图可知过拟合在以下条件下容易发生: 1. 资料太少 2. 随机噪声或确定噪声太多 3. 算法过于强大由上图知确定性噪声是由于目标函数太复杂,训练的h不足以实现这个f, 相当于新手上路。为什么,怎么做。原创 2017-12-06 09:49:29 · 283 阅读 · 0 评论 -
机器学习笔记(8)VC维 (vc dimension)
这里有个图像,在dvcd_{vc}比较小的情况下会出现欠拟合(underfitting), 在dvcd_{vc}比较大的情况下会出现过拟合(overfitting), 所以训练集过大也不好过小也不好,最好在那个虚线范围左右最好。这样理解不知道对不对哈~~原创 2017-12-04 10:56:30 · 794 阅读 · 0 评论 -
机器学习笔记(7)逻辑回归
逻辑回归(logistic)实际上是线性回归推导出来的。而且是一种分类学习方法。由于简单的二分类0-1图像不连续,我们想找到一种连续且可微的函数替换他。logistic function 正是这阿样一个函数y=11+e−zy=\frac {1} {1 + e^{ - z}}看看图: 代码:# -*- coding: utf-8 -*-from sklearn import datasetsim原创 2017-11-23 15:22:33 · 459 阅读 · 0 评论 -
folium遇到的坑 不显示颜色
三个坑: 居然不显示分层的颜色(heatmap)很坑啊,网上查了很多资料,发现新版的folium的geo_json换了方法成了choropleth 还有一个坑 feature.id 这里 feature必须是第一个参数。 最后一个坑 su_lt_two['Zip']=su_lt_two['Zip'].astype(str) 读取csv时,例如‘Zip’字段的类型必须与geojson原创 2017-11-13 17:08:41 · 3336 阅读 · 3 评论 -
机器学习笔记(2)线性模型的基本形式
基本形式:f(x)=w1x1+w2x2+...+w3x3+wdxd+bf(x)=w_{1}x_{1}+ w_{2}x_{2}+...+w_{3}x_{3}+w_{d}x_{d}+b一般用向量形式写成: f(x)=wTx+b(不理解的话可以查查线性表出) f(x)=w^{T} x+b\quad(不理解的话可以查查线性表出)例如若在西瓜问题中学得: f好瓜(x)=0.2x色泽+0.5x根蒂+0.3x原创 2017-10-17 10:13:28 · 1510 阅读 · 0 评论 -
机器学习笔记(5)sklearn基本使用
先上代码# -*- coding: utf-8 -*-from __future__ import divisionimport pandas as pdfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.cross_validation import train_test_splitfrom sklearn.mul原创 2017-11-01 18:12:10 · 436 阅读 · 0 评论 -
机器学习笔记(1)经验误差与过拟合
错误率:若在m哥样本中有a个错误,则错误率E=a/m, 相应的1-a/m为精度。 训练误差:学习器在训练集上的误差。 经验误差:在新样本上的误差。(又叫泛化误差 (empirical error)) 过拟合:当学习器把样本训练的太好的时候,把它的所有特点都当做新样本本身所具有的特点。欠拟合是因为学习能力低下。 所以需要“模型选择”来“评估” http://news.91.com/all原创 2017-10-15 10:58:11 · 800 阅读 · 0 评论 -
机器学习笔记(4)各种分类
按输出空间Y分二分类多分类classification回归分析regression结构化structured learning按数据标签分监督式supervised非监督式unsupervised半监督式semi-supervised按协议protocol分批量式batch在线式online主动式active按输入空间X分具体式concreted原始特征raw抽象abs原创 2017-10-31 09:57:56 · 349 阅读 · 0 评论 -
机器学习笔记(3)线性模型之线性回归
前言 先来说个天龙八部的故事,话说乔峰在聚贤山庄大战江湖群雄,当时各路豪杰纷纷使出砍价本领,什么九阴真经啊,葵花点穴手啊,降龙十七掌啊,凌波微步啊,但是统统被乔峰一拳打倒,竟无一人是其对手,那么乔峰用的是啥功夫呢?? 其实只是“长拳”,一种最基础的武功,习武之人必会的东西,但是乔峰掌握的很扎实,可见基础有多么重要了。 据说:“ 回归可以做任何事情 ”。什么是回归假如原创 2017-10-21 23:58:23 · 449 阅读 · 0 评论 -
机器学习笔记(10)决策树
引用:《西瓜书》要点其中叶节点对应于决策结果,其他各个节点对应于一个属性。 决策树的目的是为了生成一棵泛化能力强、即处理未见示例能力强的决策树。基本流程是分而治之。划分选择决策树一个递归过程 由上图可看出,决策树学习的关键是第8行,即如何选择最优划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即”节点”的纯度(purity)越来越高。信息增益信原创 2017-12-18 11:03:55 · 351 阅读 · 0 评论