机器学习
lostinai
这个作者很懒,什么都没留下…
展开
-
分类算法之朴素贝叶斯分类(Naive Bayesian classification)
0、写在前面的话 我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的。 一直想写关于算法的博文,也曾写过零散的两篇,但也许是相比于工程性文章来说太小众,并没有引起大家的兴趣。最近面临毕业找工作,为了能给自己增加筹码,决定再次复习算法方面的知识,我决转载 2015-10-22 14:35:16 · 447 阅读 · 0 评论 -
数据挖掘笔记-特征选择-算法实现-1
关于特征选择相关的知识可以参考一下连接数据挖掘笔记-特征选择-开方检验数据挖掘笔记-特征选择-信息增益数据挖掘笔记-特征选择-期望交叉熵数据挖掘笔记-特征选择-互信息数据挖掘笔记-特征选择-遗传算法数据挖掘笔记-特征选择-整体汇总项目源码里面包含Java和Python的实现,这里只列出Python实现:代码托管:https://github.com/fi转载 2015-12-13 18:41:56 · 1398 阅读 · 2 评论 -
id3算法(python代码)
1. 该python实现没有考虑到overfitting。[python] view plaincopy# coding=utf-8 from numpy import * from math import log #下面的函数用来计算香农熵 H=sum(-p(xi)log(p(xi))) 其中xi指的是每种类别所占的比例 def calcShannonEnt转载 2015-12-13 18:42:57 · 3254 阅读 · 0 评论 -
决策树
http://www.hankcs.com/ml/decision-tree.html本文对应《统计学习方法》第5章,用Python实现了决策树的ID3生成算法和C4.5生成算法,并用matplotlib可视化出来。决策树模型与学习决策树模型分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型:内部节点和叶节点,内部节点表示转载 2015-12-13 18:44:22 · 2929 阅读 · 0 评论 -
用Python开始机器学习(2:决策树分类算法)
http://blog.csdn.net/lsldd/article/details/41223147首先我们学习经典而有效的分类算法:决策树分类算法。1、决策树算法决策树用树形结构对样本的属性进行分类,是最直观的分类算法,而且也可以用于回归。不过对于一些特殊的逻辑分类会有困难。典型的如异或(XOR)逻辑,决策树并不擅长解决此类问题。决策树的构建不是唯一的,遗憾的是最优决策树的转载 2015-12-14 10:12:19 · 862 阅读 · 0 评论 -
PCA技术降维
https://www.zybuluo.com/ssdf93/note/54643下面是我的kaggle比赛解题报告的第一弹,本人现在是小白菜,所以从简单的题目开始,如果大神看了,见笑了。这个题目就是手写数字识别,比较经典的分类题目,它的数据取自MNIST项目。数据分析数据中训练数据大约是74M,测试数据大约50M.数据内容是28*28=784个像素,其中训练数据的第1列是转载 2015-12-14 15:32:37 · 3185 阅读 · 0 评论 -
scikit-learn中PCA的使用方法
http://blog.csdn.net/u012162613/article/details/42192293scikit-learn中PCA的使用方法@author:wepon@blog:http://blog.csdn.net/u012162613/article/details/42192293在前一篇文章 主成分分析(PCA) 中,我基转载 2015-12-14 15:22:03 · 683 阅读 · 0 评论 -
Python机器学习库
Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy。其中Numpy是一个用python实现的科学计算包。包括:一个强大的N维数组对象Array;比较成熟的(广播)函数库;用于整合C/C++和Fortran代码的工具包;实用的线性代数、傅里叶变换和随机数生成函数。 SciPy是一个开源的Python算法库和数学工具包,SciPy包含的模块有最优化、线性代数、转载 2015-11-29 11:48:13 · 388 阅读 · 0 评论 -
Python机器学习库scikit-learn实践
Python机器学习库scikit-learn实践zouxy09@qq.comhttp://blog.csdn.net/zouxy09 一、概述 机器学习算法在近几年大数据点燃的热火熏陶下已经变得被人所“熟知”,就算不懂得其中各算法理论,叫你喊上一两个著名算法的名字,你也能昂首挺胸脱口而出。当然了,算法之林虽大,但能者还是有限,能适应某些环境并取得较好效果的算法会脱转载 2015-11-30 13:58:53 · 702 阅读 · 0 评论 -
信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC
http://blog.csdn.net/marising/article/details/6543943在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总。准确率、召回率、F1信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全转载 2015-12-01 13:35:40 · 635 阅读 · 0 评论 -
推荐系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)
1、准确率与召回率(Precision & Recall)准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。一般来说,Precision就是检索出来的条目(比如:文档、网页等)有多少是准确的转载 2015-12-01 13:54:20 · 3219 阅读 · 0 评论 -
特征选择常用算法综述
1 综述(1)什么是特征选择特征选择 ( FeatureSelection )也称特征子集选择(Feature Subset Selection , FSS ) ,或属性选择( AttributeSelection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。 (2)为什么要做特征选择 在机器学习的实际应用中,特征数量往往较多,其中可能存在转载 2015-12-10 21:30:35 · 356 阅读 · 0 评论 -
数据挖掘十大经典算法
http://blog.csdn.net/aladdina/article/details/4141177国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoos转载 2015-10-31 17:18:05 · 351 阅读 · 0 评论 -
分类算法之贝叶斯网络(Bayesian networks)
2.1、摘要 在上一篇文章中我们讨论了朴素贝叶斯分类。朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是具有较强的相关性,这样就限制了朴素贝叶斯分类的能力。这一篇文章中,我们接着上一篇文章的例子,讨论贝叶斯分类中更高级转载 2015-10-22 15:21:36 · 1291 阅读 · 0 评论 -
svm中的数学和算法
支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。一、数学部分1.1二维空间支持向量机的典型应用是分类,用于解决这样的问题:有一些事物是可以被分类的,但是具体怎么分类的我们又说不清楚,比如说下图中三角的就是C1类,圆圈的就转载 2015-10-29 11:24:01 · 880 阅读 · 0 评论 -
SVM算法
关于SVM的论文、书籍都非常的多,引用强哥的话“SVM是让应用数学家真正得到应用的一种算法”。SVM对于大部分的普通人来说,要完全理解其中的数学是非常困难的,所以要让这些普通人理解,得要把里面的数学知识用简单的语言去讲解才行。而且想明白了这些数学,对学习其他的内容也是大有裨益的。我就是属于绝大多数的普通人,为了看明白SVM,看了不少的资料,这里把我的心得分享分享。其实现在能够找到的,关于SVM转载 2015-10-29 10:33:55 · 551 阅读 · 0 评论 -
java学习--Libsvm java版代码注释及详解(一)
由于工作中要用到SVR算法,项目组的系统是用java开发的,因此,为了能与项目组同步,算法需要用java来实现,还好台湾大学的林智仁教授推出了Libsvm的源代码,包括java、c++等语言的源代码,在此表示感谢!因此,算法的主体部分不用自己开发了,在源代码的基础上做一些修改就能够应用到自己的项目中了,开源真好!受益了无数人。。。为了弘扬开源的精神,开博记录学习Libsvmjava版源代码的过程。转载 2015-10-29 17:11:46 · 2999 阅读 · 1 评论 -
3行程序搞定SVM分类-用JAVA程序调用LibSVM API 最简单的示例
http://blog.csdn.net/yangliuy/article/details/8041343最近用LibSVM做分类实验,发现网上的资料大都是关于SVM基本原理和怎么用终端命令行使用svm-train,svm-predict等几个程序,这些其实在README文件中已经讲得很清楚了,Readme里面几乎包含了所有可以帮助你灵活使用LibSVM的信息,可是很多人都不怎么看转载 2015-10-29 17:26:49 · 2260 阅读 · 1 评论 -
数据挖掘中所需的概率论与数理统计知识
http://blog.csdn.net/v_july_v/article/details/8308762数据挖掘中所需的概率论与数理统计知识 (关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布)导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观转载 2015-10-29 17:30:28 · 1706 阅读 · 0 评论 -
基于朴素贝叶斯分类器的文本分类算法
基于朴素贝叶斯分类器的文本分类算法(上)http://www.cnblogs.com/phinecos/archive/2008/10/21/1316044.html基于朴素贝叶斯分类器的文本分类算法(下)http://www.cnblogs.com/phinecos/archive/2008/10/21/1316044.html转载请保留作者信息:作者:phi转载 2015-10-30 15:12:40 · 1401 阅读 · 0 评论 -
数据挖掘领域十大经典算法初探
数据挖掘领域十大经典算法初探 译者:July 二零一一年一月十五日-----------------------------------------参考文献:国际权威的学术组织ICDM,于06年12月年评选出的数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bay转载 2015-10-30 16:27:33 · 398 阅读 · 0 评论 -
kNN(K-Nearest Neighbor)最邻近规则分类
http://blog.csdn.net/xlm289348/article/details/8876353KNN最邻近规则,主要应用领域是对未知事物的识别,即判断未知事物属于哪一类,判断思想是,基于欧几里得定理,判断未知事物的特征和哪一类已知事物的的特征最接近;K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。转载 2015-10-30 17:23:04 · 765 阅读 · 0 评论 -
数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现(上)
(update 2012.12.28 关于本项目下载及运行的常见问题 FAQ见 newsgroup18828文本分类器、文本聚类器、关联分析频繁模式挖掘算法的Java实现工程下载及运行FAQ)本文主要内容如下:对newsgroup文档集进行预处理,提取出30095 个特征词计算每篇文档中的特征词的TF*IDF值,实现文档向量化,在KNN算法中使用用JAVA实现了KNN算法及朴素转载 2015-10-30 16:14:26 · 1448 阅读 · 0 评论 -
斯坦福大学Andrew Ng教授主讲的《机器学习》公开课观后感
近日,在网易公开课视频网站上看完了《机器学习》课程视频,现做个学后感,也叫观后感吧。 学习时间 从2013年7月26日星期五开始,在网易公开课视频网站上,观看由斯坦福大学Andrew Ng教授主讲的计算机系课程(编号CS229)《机器学习》(网址http://v.163.com/special/opencourse/machinelearning.html)(注:最早是在新浪公开课上转载 2017-01-22 15:17:18 · 785 阅读 · 0 评论