machine-learning
文章平均质量分 88
miangmiang咩
这个作者很懒,什么都没留下…
展开
-
ROC和AUC介绍及计算
AUC是一种用来度量分类模型好坏的一个标准。它跟ROC有着密切的关系,所以先介绍ROC,再来分析AUC以及它的计算。ROC曲线 ROC曲线能够反映分类的能力,它的横坐标是falsepositive rate(FPR),纵坐标是truepositive rate(TPR)。(晕定义的可以跳到下一段)对某个分类器而言,我们可以根据其在测试样本上的表现得到一个TPR和FPR原创 2016-08-20 17:44:26 · 7249 阅读 · 2 评论 -
支持向量机系列
很偶然的选课接解到了机器学习这门学科,于是开始一个一个的剥算法,感受它的魅力和可爱之处,其中SVM是探究最多的一个,每一次以为自己理解了,再跟别人交流或者查些资料,又会有些新的感悟,所以总结出来。我觉得我所看过的博客有很多东西没有讲明白,虽然不知道自己是否有功底深入浅出,但是达到分享心得和交流的目的即可,如果你对所写博文有任何疑问,欢迎留言。目录:支持向量机系列----原来你是这样的SVM原创 2016-05-15 22:17:50 · 775 阅读 · 0 评论 -
支持向量机系列----原来你是这样的SVM
是否对SVM有个大概的了解?慢慢来,好戏还在后面,欢迎一切交流,批评和指正。原创 2016-05-15 21:58:37 · 914 阅读 · 0 评论 -
支持向量机系列---为什么要引入核函数
前面的算法是针对线性可分的情况,当我们的样本线性不可分的时候怎么办呢?如果我们可以把线性不可分的问题转变成线性可分的问题该有多好!生活就是这么的美妙,我们可以将样本通过一个映射函数交它从原始空间投射到一个更高维的特征空间,使得样本在这特征空间线性可分,如下图所示。图一这个时候,我们就可以对这个特征空间使用前面提到的最大化硬间间隔来进行分类。幸运的是,如果原始空间是有限维的,即属性数有限原创 2016-05-15 21:33:47 · 11370 阅读 · 4 评论 -
机器学习推荐书单(未完待续)
我是一名信号与信息处理专业的研究生,研究方向跟计算机专业交集比较大,当然,作为一名工科生,对基础知识的要求都差不多,在摸索中,我发现寻得一本好书,真得犹如获得一位知音,学习也会轻松不少,写得一本通俗易懂,又让人启发无穷的书的人,真的是功德无穷。另外,虽然大家一直都很看不起国内教材,但是不得不说,国内教材,其实更开门见山,比较好入门,如果想看看一些原理,还是国外教材比较好,而且真的写得好,感觉读下来原创 2015-05-15 14:03:25 · 969 阅读 · 0 评论 -
安装python及机器学习相关软件包
如果你是linux新手,想知道怎样在ubuntu下配置机器学习安装包的请看过来,下面使用的是最简单的sudo命令,把你在机器学习里面大多数需要使用的package配置好。1.下载并安装编译环境ipythonsudo apt-get install ipython2.配置环境sudo apt-get install python-dev python-numpy原创 2015-06-16 19:59:19 · 661 阅读 · 0 评论 -
支持向量机: Kernel
前面我们介绍了线性情况下的支持向量机,它通过寻找一个线性的超平面来达到对数据进行分类的目的。不过,由于是线性方法,所以对非线性的数据就没有办法处理了。例如图中的两类数据,分别分布为两个圆圈的形状,不论是任何高级的分类器,只要它是线性的,就没法处理,SVM 也不行。因为这样的数据本身就是线性不可分的。对于这个数据集,我可以悄悄透露一下:我生成它的时候就是用两个半径不同的圆圈加上了少量的噪音得转载 2015-05-11 20:49:51 · 1127 阅读 · 0 评论 -
python学习之正则表达式笔记
最近在学习《集体编程智慧》的第三章节,里面在对数据的提取中使用了正则表达式,网上的解说有很多,但是感觉不具体,有些术语,给人一种不明觉厉的感觉,而且文章的例子太少,多是文字和表格解说型的,不好理解 ,于是在自己学习了相关内容后,用自己的话语来写一篇关于正则表达式的文章,多多指教:什么是正则表达式: 正则表达式(或者RE)是一种小型的、高度专业化的编程语言,它内嵌于python 中,并能过r原创 2015-05-10 16:55:09 · 1368 阅读 · 1 评论 -
集体智慧编程chapter 2提供推荐<寻找相似性的用户>
“协作型过滤”:对一大群人进行搜索,并从中找出一们口味相近的一小群人主要介绍了两种方法:欧几里德距离原理 :这是一种比较简单的计算相似度的方法,它们经过人们一对待评价的物品为坐标轴,然后将参与评价的人绘制到图上,并考查他们彼此间的距离远近。sum = 相同item的差值的平方之和total = 1 / (1 + sum)使用一个0-1之间的值去评价相似度,返回1则表原创 2015-04-18 22:23:50 · 577 阅读 · 0 评论 -
淘宝穿衣搭配算法大赛有感
去年阿里天池答辩在美丽的华工举办,五组选手的答辩真是一场知识的盛宴,评委大多数都是阿里的资深工作人员,所以他们的提问也是颇细腻。阿里举办的这种比赛意义还是挺大的,既可以解决自己的存在问题,又可以招贤。当然,对于数据爱好都的小白我,也是一种最好的教学。我的反思我是研究生阶段接触机器学习和深度学习(了解一点),然后以李航老师写的统计学方法和集体智慧编程入门的,在kaggle上有参加过一两个比赛原创 2016-02-21 15:47:35 · 7630 阅读 · 16 评论