数据挖掘&机器学习
文章平均质量分 53
石贤芝
数据挖掘&机器学习
展开
-
数据挖掘回顾一:分类算法之 kNN 算法
下面用最简洁的话语说明 kNN 算法:kNN 算法(K 近邻算法)是一种分类算法,即对于给出的一条待分类的数据或待分类的一个东西,我们提取出这条数据的特征值;按照特征值,通过计算与已经分好类的所有条数据之间的一一欧式距离,把这些所有欧式距离排序,挑选出K个最短的距离所对应的已经分好类的数据。k个中按频率选出出现次数最多的数据们的类别。那么,knn算法就判定,这个类别就是待分类数据或东西原创 2015-04-01 21:56:33 · 642 阅读 · 0 评论 -
滴滴出行亮相国际顶级数据挖掘会议KDD
中国新闻网 2016-08-17 来自:滴滴动向 8月17日电 日前,国际顶级数据挖掘会议KDD2016在美国旧金山开幕,包括Google、Facebook、微软、Amazon、阿里巴巴、腾讯、百度及滴滴出行等在内的科技公司参加了本次会议,滴滴出行研究院副院长叶杰平在该会议上发表了如何利用大数据进行智能调度和供需预测的演讲。KDD 大会(国际数据挖掘与知识发现大会, ACM SIGKDD Conf转载 2016-09-18 18:22:46 · 1505 阅读 · 0 评论 -
R语言常用包分类
1、聚类 常用的包: fpc,cluster,pvclust,mclust 基于划分的方法: kmeans, pam, pamk, clara 基于层次的方法: hclust, pvclust, agnes, diana 基于模型的方法: mclust 基于密度的方法: dbscan 基于画图的方法: plotcluster, plot.hclust 基于验证的方法: cluster.转载 2015-06-27 20:03:04 · 2183 阅读 · 0 评论 -
车品觉:忘掉大数据,数据思维才最重要 !
观点 | 车品觉:忘掉大数据,数据思维才最重要 ! (转载)品途网2016-05-14 12:21:13阅读(7907) 评论(0) 声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。举报 我们正处在历史的转折点上,数据技术在快速变革。大数据成了人们竞相议论的热词,但鲜有人提及这场巨大变革中人们需要具备的能力。无数的企业及个人望“数”兴叹:“大数据与转载 2016-07-05 20:18:57 · 1223 阅读 · 0 评论 -
周志华老师《机器学习》 第02章 《模型评估与选择》 笔记
本章主要讲了三个问题:评估一个模型(学习器),常见的方法有哪些?评估的方法确定后,衡量一个模型(学习器)泛化能力的常见量化指标有哪些,并根据这些量化指标如何选择一个好的模型?模型(学习器)的泛化误差由哪几部分组成?其中本章第2节回答了上面的第一个问题。本章第1、3、4节回答了第二个问题。本章第5节回答了第三个问题。本章章节安排如下图: 本章各小节知识点结构图如下:原创 2016-12-26 15:46:01 · 690 阅读 · 0 评论 -
周志华老师《机器学习》 第01章 《绪论》 笔记
第01章 绪论 笔记整理如下:图片全部显示在浏览器中,字体较小。建议右键图片另存为到本地电脑,查看。原创 2016-12-21 11:14:00 · 904 阅读 · 0 评论 -
windows下安装rattle包所踩的坑
rattle 是R语言的一个包,它是在R语言中可视化地处理分析挖掘数据的一个非常受欢迎的工具。数据科学工作者,可以用它输入数据、变换数据、对数据进行探索性分析、对数据进行常见算法的建模,而不用编写哪怕一行代码。这既方便初学者学习R语言,又大大节省了R语言老手在数据建模初级阶段进行数据处理的时间。rattle包的安装步骤如下: 1,首先,安装R语言,请在 https://cran.r-project.原创 2017-07-22 15:23:35 · 8138 阅读 · 1 评论 -
方差分析
方差分析是研究一种或多种因素的变化对实验结果的观测值是否有显著影响,从而找出较优的实验条件或生产条件的一种常用的数理统计方法。影响观测值的条件称为因素。因素的不同状态称为水平,一个因素可以有多个水平。引起观测值不同的原因是多方面的,主要有两个方面:因素效应、实验误差。单因素方差分析: 1,aov_model = aov(X~A, data=lammp) ; summary(aov_mode原创 2017-07-25 07:16:39 · 1207 阅读 · 0 评论 -
随机森林分类和adaboost分类方法的异同之处
随机森林和adaboost算法都可以用来分类,它们都是优秀的基于决策树的组合算法。相对于经典线性判别分析,其分类效果一般要好很多。下说明这两种分类方法的相同和不同之处:1,相同:二者都是bootsrap自助法选取样本。 2,相同:二者都是要训练很多棵决策树。 3,不同:adaboost后面树的训练,其在变量抽样选取的时候,对于上一棵树分错的样本,抽中的概率会加大。 4,不同:随机森林在训练每一原创 2017-12-30 20:17:29 · 5973 阅读 · 0 评论 -
利用opencv3.4.1进行正态贝叶斯分类
当样本的特征向量满足多维正态分布时,对于分类任务,可以使用正态贝叶斯分类方法,进行训练。使用OpenCV3.4.1中的ML模块,具体实现demo如下:#include"pch.h"#include<opencv2/opencv.hpp>#include<opencv2/ml/ml.hpp>using namespace std;using namespac...原创 2018-12-30 10:03:24 · 885 阅读 · 0 评论 -
利用opencv3.4.1进行随机森林的分类
#include"pch.h"#include<opencv2/opencv.hpp>#include<opencv2/ml/ml.hpp>using namespace std;using namespace cv;using namespace ml;int main(){ const int Kwidth = 512; const int Kh...原创 2018-12-30 20:21:24 · 2443 阅读 · 0 评论 -
数据挖掘回顾三:分类算法之 朴素贝叶斯 算法
朴素贝叶斯分类算法,基于条件概率和贝叶斯公式,不同于 kNN 算法和 ID3 决策树算法(这二者都是明确分类算法),朴素贝叶斯是一种概率意义上的分类算法。下面先说一下概率的相关知识,再阐述朴素贝叶斯分类算法的原理。1,联合概率和条件概率:P(x) 表示 x 事件发生的概率,P(y) 表示 y 事件发生的概率,P(x,y) 表示 x 发生并且 y 也发生的联合概率,P(x|y) 表示 在原创 2015-04-05 06:40:35 · 920 阅读 · 0 评论 -
MATLAB 数据分析二: 样本数据可视化--条形图、直方图、二/三维散点图
测试数据:load yhdz.matyhdz如下: yhdz = 3 4 5 6 7 7 89 8 90 11 22 3 45 77 66 88 87 44 2原创 2015-05-29 20:08:12 · 2478 阅读 · 0 评论 -
MATLAB 数据分析一: 描述样本数据的几个基本特征
测试数据:load yhdz.matyhdz如下: yhdz = 3 4 5 6 7 7 89 8 90 11 22 3 45 77 66 88 87 44 2原创 2015-05-29 16:33:49 · 4536 阅读 · 0 评论 -
数据挖掘回顾二:分类算法之 决策树 算法 (ID3算法)
决策树算法和 kNN 算法一样,也是有监督学习,即是有分好类的训练集的。此算法通过分好类的训练集来决定出决策树长得什么样子。然后根据这个决策树来对测试集中的数据进行分类。决策树长得样子,即是说这个决策先用哪个特征换分数据集,再用哪个特征划分数据集。1,在决策树算法中,通过计算什么标准来划分数据集,方式有多种。比如可以通过 计算信息增益,还可以通过计算基尼不纯度(即度量被错误分配到其原创 2015-04-03 14:22:26 · 1172 阅读 · 0 评论 -
数据挖掘回顾九:回归算法之 模型树
1,模型树是一个混合算法。它首先是一个决策树算法,类似CART算法,而又不同于ID3算法或CART算法。传统的决策树算法,它们生成树的叶子节点上代表对一条数据的预测类别或预测目标值,而模型树上的叶子节点代表一个线性回归模型(最小二乘法)。对于一条测试数据,用这个线性回归模型计算出其预测类别或预测目标值。2,也就是说,模型树在分裂的时候,选定切分特征和切分特征值的时候,其参考标准不再是C原创 2015-04-11 18:19:45 · 1046 阅读 · 0 评论 -
数据挖掘回顾八:决策树要点 和 CART 算法 (分类回归树)总结。
决策树要点如下图: 1,CART 算法全称 分类回归树 算法,又称回归树算法。它是一种回归算法,也是一种决策树算法。它既可以处理离散型数据,还可以处理连续性数据。 2,CART 算法其实是一个比较复杂的算法,这里说明一个其简单的形式。 3,CART 算法包括两个步骤:第一步:分裂数据集生成回归树。第二步,为避免过拟合,对回归树进行剪枝处理。 4,CART 算...原创 2015-04-11 17:34:27 · 2473 阅读 · 0 评论 -
数据挖掘回顾七:回归算法之 线性回归
1,和分类算法一样,回归也是预测目标值的过程。回归较之分类的不同点在于:分类预测出来的是离散型变量(类别),而回归预测的是连续性变量。2,线性回归的结果会求出一个线性回归方程,确定回归系数的方式是 最小化误差的平方和。 即用回归系数表示出误差的平方和,然后对回归系数求导,令导数为零,即求得回归系数W。其实就是最小二乘法求回归系数。这是一般的线性回归的求法。3,很多时候,用最原创 2015-04-11 08:50:31 · 3731 阅读 · 0 评论 -
数据挖掘回顾四:分类算法之 logistic回归 算法
logistic回归是分类算法中最璀璨的一个算法。在研究两分类相应变量(即只有类别0和类别1)与诸多自变量(即每条数据的各个特征变量)之间的相互关系时,常常选用logistic回归模型。关于logistic回归分类算法,《机器学习实战》一书中说的不是很好。在博客 http://blog.csdn.net/dongtingzhizi/article/details/15962797原创 2015-04-06 21:19:38 · 2461 阅读 · 0 评论 -
数据挖掘回顾十:聚类算法之 K均值 (K-Means) 算法
由此,跨入无监督学习。即从此没有训练集和测试集之说,无监督学习只有一个数据集。并且,在分类或回归算法中(有监督学习),数据集中的一条数据包含两个信息:各特征属性值、类别标签或目标值。而聚类算法的数据集中每一条数据只包含一个信息:各特征属性值。聚类,顾名思义,就是聚类,呵呵。即把数据集中的数据凝聚成一个或多个小类,这些各个小类自己内部的数据之间有相似的特征属性。K原创 2015-04-12 22:47:25 · 779 阅读 · 0 评论 -
数据挖掘回顾十一:关联规则挖掘之 Apirori 算法
在我们日常学习工作生活的很多场景中,往往有两个或两个以上的事物同时出现或有顺序的出现。比如人们经常一起购买牛奶和面包,方便面火腿咸鸭蛋,或者人们先买车,然后买车载摄像头,或者再购买车险。以上这些东西是有关联的,他们之间就有关联规则。给定一个事务数据集,Apriori算法用来找出有关联规则的小集合项。下面给出一些具体的定义以及Apriori算法大体原理。1,项与项集的概念:原创 2015-04-13 17:10:42 · 1681 阅读 · 0 评论 -
数据挖掘回顾十二:关联规则挖掘之 FP-Growth 算法
1,鉴于Apriori算法需要反复地扫描事务数据库,产生频繁项集候选的数量巨大,并且在计算支持度计数时工作量巨大。2,为了避免在产生候选时巨大的工作量,J.Han(韩家炜),J.Pei(裴健),andY.Yin 提出了频繁模式增长算法,即本文中要说的FP-Growth 算法。此算法最主要的有点就是避免了产生候选频繁集。3,FP-Growth 算法利用了如下的性质原创 2015-04-13 17:39:01 · 1711 阅读 · 0 评论 -
数据挖掘回顾五:分类算法之 支撑向量机(SVM) 算法
支撑向量机(SVM) 算法可以看做是对logistic回归算法的一般性扩展,它们都假设训练集中的数据线性可分。支撑向量机用途广泛,更具一般性。有一篇博文,介绍SVM非常详尽,可以参考。地址如下:http://blog.csdn.net/v_july_v/article/details/7624837/现摘录其中的一段话对SVM做一个总结:不准确的说,SVM它本质转载 2015-04-08 07:58:50 · 585 阅读 · 0 评论 -
《机器学习实战》中实例名称汇总
一,分类算法-----kNN 算法(k近邻算法)1,约会网站的配对效果2,数字手写识别系统(可扩展为字符手写识别系统)二,决策树原创 2015-04-02 15:12:31 · 625 阅读 · 0 评论