- 博客(108)
- 资源 (18)
- 收藏
- 关注
原创 precision和recall
Recall(召回率);Precision(准确率);F1-Meature(综合评价指标);首先来个定义: Precision:被检测出来的信息当中 正确的或者相关的(也就是你想要的)信息中所占的比例; Recall:所有正确的信息或者相关的信息(wanted)被检测出来的比例。查了资料都习惯使用四格图来解释,来个易懂的四格图: true positives (纳真) fal
2016-12-05 20:32:52 753
原创 Boosting
本内容整理自coursera,欢迎交流转载。1 概述 i)循环迭代多次 更新样本分布 寻找当前分布下的最优弱分类器 计算弱分类器误差率 ii)聚合多次训练的弱分类器 这里的weighted_error=∑Ni=1αiy^i≠yi˙∑Ni=1αiweighted\_error=\frac{\sum^N_{i=1}\alpha{_i}\dot{\hat{y}_i\neq{y_i}}}{\
2016-12-05 16:48:19 633
原创 决策树——缺失数据的处理
本内容整理自coursera,欢迎交流转载。1 缺失数据的影响 有些数据可能有某些特征参数缺失,这不仅影响我们的训练模型,还会影响我们利用模型进行预测。2 解决办法2.1 删除缺失项删除含有特征参数缺失的数据(但是如果很多数据特征参数缺失,我们会删除大量数据,一般超过三分之一的数据被删除的话不宜采用此法)删除某个特征(如果仅仅是缺失项集中在了某几个特征,我们可以把所有数据的这些特征参数都删除
2016-12-04 12:02:55 7920
原创 决策树——过拟合的处理
本内容整理自coursera,欢迎交流转载。1 过拟合回顾 什么情况下我们就认为发生了过拟合呢? 训练集误差越来越小,true error却先变小后变大,我们就说发生了过拟合(overfitting)。 2 原则:使用简单的树 当两棵树在validation set的分类误差相近的情况下,选择复杂度低的决策树。 那么,我们怎么得到复杂度低的决策树呢?有两种方法:early
2016-12-04 11:10:54 6013
原创 决策树
本内容整理自coursera,欢迎交流转载。1 决策树举例 比方说,我们希望评价一个人的贷款风险评级,可以如下: 2 决策树学习——贪心算法(greedy algorithm) 先来看一个定义: Erroe=num of error predictionstotal numberErroe=\frac{num\ of\ error \ predictions}{total \ numb
2016-12-03 20:35:43 934
原创 线性分类器——Overfitting & regularization
本内容整理自coursera,欢迎交流转载。1 错误率和正确率error=num of mistakestotal number of data pointserror=\frac{ num\ of\ mistakes}{total\ number\ of\ data\ points} accuracy=num of correcttotal number of data pointsaccu
2016-12-03 10:51:40 666
原创 线性分类器——parameter learning
本内容整理自coursera,欢迎交流转载。1 如何确定系数矩阵 我们可以用likelihood l(w)来观测系数矩阵的分类质量。2 Data likelihoodMLE(maximum likelihood estimation) 注意:这里计算概率时需要注意真值y是+1还是-1,相应的我们在计算的时候需要使用对应的概率。 计算完上述内容之后,我们给出评价模型好坏的公式: l(w)
2016-12-02 16:50:54 502
原创 线性分类器:Logistic Regression
本内容整理自coursera.欢迎交流转载。1 回顾 在这篇博客里我描述过直线、平面和超平面的分类。2 逻辑回归 什么是logistic regression? 假设我们有N个独立向量,每个向量有D个特征x⃗ i(x0,x1,x2,...,xD)\vec{x}_i(x_0,x_1, x_2,...,x_D),矩阵H是特征矩阵,hi(x⃗ i)=x⃗ i(xi)h_i(\vec{x}_i)
2016-11-29 19:18:58 1367
原创 Kernel Regression
本内容整理自coursera,欢迎转载交流。1 Nearest neighbor regression1.1 1-NN regression(1 nearest neighbor regression)步骤:找到与xix_i最近的xNNx_{NN} 则yi=yNNy_i=y_{NN} 度量距离的公式有很多,多用欧拉距离。 1-NN方法对于数据比较稀疏的局域误差比较大,并且对
2016-11-28 14:52:46 4326
原创 Lasso Regression
本内容整理自coursera,欢迎交流转载。1如何选择特征效率 有意义稀疏性1.1法一:全部子集先选择只含有一个特征的最好的特征,然后2个,……以此类推。 假设我们有0~D个特征,由于每个特征都有被选中和没有被选中两种情况,因此算法复杂度为 2(D+1)2^{(D+1)}(指的是有这么多种模型,不包括每种模型的计算和预测的复杂度)。1.2法二:贪心算法每次选择一个剩余特征里面最好的特征
2016-11-28 11:01:04 2249 1
原创 机器学习笔记——岭回归(Ridge Regression)
本内容整理自coursera,欢迎转载交流。 (https://www.coursera.org/specializations/machine-learning)1.一般回归遇到的问题一般的回归模型很容易出现过拟合(overfitting)的问题。 为了说明过拟合,先介绍两个概念: error=bias+variance bias:指的是模型在样本上的输出与真实
2016-11-06 09:36:31 17645 2
原创 机器学习——如何评价回归模型
本内容整理自coursera,欢迎交流转载。如何定义损失我们用如下符号表示回归模型的损失(loss): L(y,fw^(x⃗ ))L(y,f_{\hat{w}}(\vec{x})) 举个栗子,我们可以使用局对误差或者方差表示 损失函数: L(y,fw^(x⃗ ))=|y−fw^(x⃗ )|L(y,f_{\hat{w}}(\vec{x}))=|y-f_{\hat{w}}(\vec{x}
2016-11-04 16:10:53 1824
原创 机器学习5——多元回归及其代码实现
本博客整理自coursera,欢迎转载交流。Features 在简单的一元线性回归模型中,我们的features一般是指一些我们现有的变量。其实,在真正的使用中更重要的可能是如何定义这些特征,我们可以用一些量的函数组合来表示特征。比如预测房价,我们可以用面积,浴室个数……表示特征,也可以用log(面积),浴室个数的平方……表示特征,那么我们的模型表示为: yi=w0h0(xi)+w1h1(x
2016-11-03 14:25:29 2671
转载 机器学习——梯度下降
参照《机器学习》这本书的第4.4.3节。一.解决目标及情景假设:当给定一些数据,输入x向量已知,输出y也已知,设计一个线性函数y=h(x)去拟合这些数据。既然是线性函数,在此不妨设为h(x)=w0*x0+w1*x1。此时我们遇到的问题就是如何确定w0和w1这两个参数,即w=(w0,w1)这个向量。既然是拟合,则拟合效果可以用误差函数:E(w)=∑ [ h(x)- y ] ^2 / 2 来衡
2016-11-01 17:05:53 430
原创 机器学习4-x——音乐推荐系统代码实现
整理自coursera 代码和数据可以在这里下载。import graphlabsong_data = graphlab.SFrame('song_data.gl/')graphlab.canvas.set_target('ipynb')#查看有多少用户users = song_data['user_id'].unique()#数据分为训练集和测试集train_data,test
2016-10-27 10:56:32 6406 5
原创 机器学习4——推荐系统
整理自coursera,欢迎交流转载。背景 现在我们考虑一个个性化的推荐系统,比如推荐电影、商品等。我们应该如何构建这个系统呢?其实推荐的方法有很多。比方说我们可以根据商品的流行度来推荐,这个方法最大的缺点是缺少个性化;为了实现个性化,我们可以把商品分类,根据分类来向用户推荐,这种方法的输入是用户的购买或浏览历史的特征,输出是用户可能喜欢的商品或多媒体信息,这个方法的优点是个性化
2016-10-26 10:59:55 1895
原创 python闯关4——最大最小
来自一个python编程挑战网站.整理供大家参考提高。题干 在这个任务中,你应该自己写出PY3中实现的内建函数 min 和 max. 一些内建函数在这里是不能用的:import,eval,exec,globals。 别忘了,你需要在你的代码中实现两个函数。 max(iterable, [, key]) 或者 min(iterable, [, key]) max(arg1, arg2,
2016-10-24 19:23:38 615
原创 机器学习笔记3——聚类
整理自Coursera。欢迎交流。背景 比方一个人正在阅读一篇文章,你则呢在语料库里面寻找相似的文章来推荐给这个人呢?这是好多公司面临的问题。你在阅读网页内容的时候网站是怎么给你推送你可能喜欢的文章呢?相似度(Similarity) 推送的文章肯定是与你正在阅读的文章相似的,因此有必要介绍一下怎么衡量2篇文章的相似度。 最简单粗暴的办法是把一篇文章打乱,统计每个单词出现的次数。我
2016-10-22 20:08:49 853
原创 python闯关3——国际象棋问题
来自一个python的闯关网站,从初级到高级。题干 Almost everyone in the world knows about the ancient game Chess and has at least a basic understanding of its rules. It has various units with a wide range of movement
2016-10-22 10:43:26 2018
原创 python闯关2-罗马数字编码
这来自一个游戏闯关练习python的网站,有些网络可能无法访问,所以我决定开始整理里面的题目和大家分享。题干 罗马数字来源于古罗马编码系统。它们是基于字母表的特定字母的组合,所表示的数等于这些数字相加(或者是相减)得到的数。前十位的罗马数字是: I,II,III,IV,V,VI,VII,VIII,IX和X。 罗马记数系统不是直接的十进制为基础,它没有零。罗马数字是根据这七个符号的组合:**符号
2016-10-21 18:06:43 1352
原创 python闯关1-返回不唯一元素
这来自一个游戏闯关练习python的网站,有些网络可能无法访问,所以我决定开始整理里面的题目和大家分享。题干 你将得到一个含有整数(X)的非空列表。在这个任务里,你应该返回在此列表中的非唯一元素的列表。要做到这一点,你需要删除所有独特的元素(这是包含在一个给定的列表只有一次的元素)。解决这个任务时,不能改变列表的顺序。例如:[1,2,3,1,3] 1和3是非唯一元素,结果将是 [1, 3, 1,
2016-10-21 17:45:48 837
原创 机器学习笔记2——分类
分类 笔记整理配套教程:coursera,欢迎转载分享!1.背景 你想要在西雅图选一个寿司很好的餐馆,所以你需要找到这样的餐馆。我们可以获得餐馆的评价比如“the sushi of this restaurant is best in the city”,我们可以把这句话输入一个情感分类器,我们可以知道这句话是对这个餐馆寿司的正面评价。(可能有些评价里面包含很多内容,比方说这里的拉面很
2016-10-21 16:08:08 1643
原创 机器学习笔记1——Regression
本内容来自coursera课程。线性回归最小二乘拟合graphlab的使用如何检验:训练集和测试集线性回归 回归模型是最简单的预测模型,基本思路是找到一条拟合直线或者拟合空间使得拟合结果的残差平方和最小(最小二乘拟合)。关于残差和最小二乘的基本原理不再赘述,可以参考误差理论或者数值分析方面的书籍。最小二乘原理 最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的
2016-10-20 10:08:57 1381
原创 教你在ubuntu下使用labview
这学期有门虚拟仪器的课程,自己早早在电脑上装好了labview2015,但是发现我的labview的帮助有问题,里面好多链接都失效了,导致查阅帮助文件的时候很不方便,于是就卸载了打算重装。可是万万没想到,卸载后脑子抽风看到一些NI的文件还在电脑里,于是就手抖删掉了,结果本宝宝的windows再也无法安装任何NI的软件了,由于电脑还有别的系统(ubuntu),并且暂时比较忙是在不想重装windows
2016-04-02 21:21:23 18705 7
原创 python里使用cv2.goodFeaturesToTrack()函数追踪图像里的关键点
首先需要对cv2.goodFeaturesToTrack函数有一个基本的了解: 详细的介绍在这里:http://baike.baidu.com/link?url=zPK3iMJJfkKO0k2bniENAvksIRY0-Ci7weIcpE9AdFybc5tyUsbPT9cUTx4-vBDmhAnCsSKToS3QP8n4JaInfa 我要处理的视频是热成像仪拍摄的,目的是追踪高
2016-03-31 09:09:14 16347 1
BP神经网络代码
2017-10-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人