机器学习
文章平均质量分 75
虾米ning
keep learning
展开
-
机器学习手记[2]---朴素贝叶斯在拼写检查的应用
这篇文章的怎样写一个拼写检查器。http://blog.youxu.info/spell-correct.html原创 2014-10-07 16:56:51 · 759 阅读 · 0 评论 -
[机器学习手记]随机森林与数字识别
kaggle数字识别题目介绍和数据地址:https://www.kaggle.com/c/digit-recognizer解法:python.sklearn的随机森林方法不只# -*- coding: utf-8 -*-"""Created on Wed Nov 25 20:39:46 2015@author: Ning LI"""import num原创 2015-12-06 08:54:06 · 633 阅读 · 0 评论 -
[机器学习手机13]scikit-learn几种交叉验证方式
这次需要介绍的是scikit-learn库里面的几种常见的交叉验证方式: 1) LeavePOut, 2) LeaveOneOut, 3) KFold, 4) Stratified KFold其实归并起来,主要是两种,KFold和LeavePOut先讲KFold,sklearn.cross_validation.KFold(n, n_folds=3, shuffle=False原创 2015-11-26 15:36:09 · 190 阅读 · 0 评论 -
[kaggle竞赛实践4]数字识别Digital Recognizer--Random Forest随机森林方法
这个比赛用的是著名的字符识别数据集,MNIST数据集, 使用的方法是随机森林方法。代码没有设计多少随即森林的方法,原理和代码级别的算法实现后面补充。精度96.5%。# -*- coding: utf-8 -*-import pandas as pdfrom sklearn.ensemble import RandomForestClassifierfrom sklearn i原创 2015-01-13 17:29:38 · 785 阅读 · 1 评论 -
[kaggle竞赛实践2] Titanic幸存预测问题--ID3决策树解决方案
= = 尽管试了很长时间,正确率也只能到75%,也许用其他的决策树方法能达到更高的效果吧。这次主要用的是决策树方法去解决问题的,在机器学习实战的ID3决策树算法上进行扩展的。发现了机器学习实战决策树的一个bug,同时领会到决策树的局限性。1 问题分析我们的问题和上一篇kaggle的一样,还是Ti原创 2014-12-15 00:02:21 · 2092 阅读 · 2 评论 -
[kaggle竞赛实践] Titanic幸存预测问题--logistic回归解决方案
题目如下,给定Titanic上乘客的资料,预测他们幸免于难的概率,训练集合如下,测试集合类似,只不过Survived与否需要自己预测这个只是个题目,可以用之前学到的机器学习算法练练手,我主要采用了Andrew Ng将的logistic回归的资料和方法,数据处理则是用pandas做的主要步骤1 数据整理,数据清理和转换 python pandas和numpy完成原创 2014-12-12 01:03:26 · 1512 阅读 · 0 评论 -
机器学习手记[13]--CART树回归算法解析
CART树回归算法解析1 初衷我们之前接触的ID3决策树,它特点是将所有的特征转化成标称的值。比如说年龄维度的数据是从1-80的,我们不是将这个特征按照80分进行特征分支而跟可能是按照老中青这种分成几个区间的特征,这个过程也就是将连续值转化成标称值。也就是说ID3决策树处理其实还是离散值,不是连续值。而且怎么处理都是人说了算的,年龄可以那样分,但是其它的数据是不是也是同样分呢?在这原创 2015-02-05 01:38:56 · 312 阅读 · 0 评论 -
[机器学习手记12]机器学习小思考
虽然接触机器学习并没有太长时间,有的时候放下书本或者IDE让我想想我自己熟悉的几个基本的算法都剩下些什么我能记得住的,也许就是下面这些了。。 KNN:就是将各个维度并列,计算多维特征距离 决策树:就是以熵的大小为依据,采取逐步最优的方法,选择最能够分的开当前数据集的那个特征,递归不断进行分离数据集的操作。 PageRank :就是个收敛问题。记原创 2014-12-19 00:27:02 · 503 阅读 · 0 评论 -
机器学习手记[7-2]-PageRank算法再思考
机器学习手记[11]–PageRank算法再思考一、目的二、马尔科夫过程平衡两个条件三、PageRank两个问题四、从矩阵上分析两个问题五、PageRank两种方法通用解决措施六、PageRank两种方法通用解决措施七、参考一、目的之前看过一些PageRank的知识和源码,自己也动手了一遍。今天看那本mining of massive d原创 2014-11-19 22:23:41 · 830 阅读 · 0 评论 -
[kaggle竞赛实践3] Titanic幸存预测问题--朴素贝叶斯解决方法
使用朴素贝叶斯的方法解决这个问题先贴代码,明天补充,睡觉数据处理和朴素贝叶斯py# -*- coding: utf-8 -*-'''Created on Oct 12, 2010Decision Tree Source Code for Machine Learning in Action Ch. 3@author: Peter Harrington'''from原创 2014-12-17 04:07:47 · 1497 阅读 · 1 评论 -
机器学习手记[9]--线性回归linear regression
等等原创 2014-10-28 02:06:33 · 612 阅读 · 0 评论 -
机器学习手记[4]--Apriori关联准则挖掘方法
关联规则提取主要是两个步骤1 候选集的创建和提炼2原创 2014-10-11 01:37:37 · 490 阅读 · 0 评论 -
机器学习手记[10]--logistic回归和python实现
等等原创 2014-10-28 16:39:59 · 517 阅读 · 0 评论 -
机器学习手记[6]---KNN算法
等等原创 2014-10-15 00:37:08 · 393 阅读 · 0 评论 -
机器学习手记[8]--Python Networkx库中PageRank算法实现源码分析
Python Networkx库中PageRank算法实现源码分析网上对Page算法讲解的很多,实现代码也很多很杂, 所以为了找到一个更高质量的PageRank算法的实现,我阅读了Python Networkx库上自带的pagerank方法的源码。部分多余内容我删除了,有兴趣可以直接下这个库查看源码PageRank算法最主要的地方在于对两个问题的解决,一个是dangli原创 2014-10-27 17:06:38 · 10705 阅读 · 2 评论 -
机器学习手记[3]---朴素贝叶斯识别垃圾邮件的应用
本文主要基于《机器学习实战--朴素贝叶斯》原创 2014-10-08 12:28:44 · 1032 阅读 · 0 评论 -
机器学习手记[1]---朴素贝叶斯Naive Bayesian案例学习
贝叶斯基本等式:P(A|B)*P(B)-= P(B|A)*P(A)例子一:黑白球问题一个盒子30黑,10个白球;另一个盒子20黑,20白。现在摸出一个发现是白球,那么它来自第一个盒子的概率?解答:P(第一个盒子|白球)* P(白球)= P(白球|第一个盒子)* P(第一个盒子)X*(30/80)=(1/4)*(1/2)解得X=1/3原创 2014-10-07 13:54:38 · 819 阅读 · 0 评论 -
在windows下编译caffe的python接口(CPU模式)
主要的资料来源是happynear的教程(英文github,中文csdn博客),但是里面对python接口是分散讲的,而且有个地方有遗漏,摸索一天才发现怎么弄,所以这里针对python的部分单独讲讲。 我用的是VS2013,CPU模式,因为我的笔记本的N卡太弱了,所以我后来还是用CPU模式了。 第一步 下载所需2个包一个happynear的github的包,另一个他的3rdp原创 2016-01-17 17:18:58 · 3667 阅读 · 5 评论