数据分析/挖掘
文章平均质量分 80
fufeng_andy
这个作者很懒,什么都没留下…
展开
-
聚类分析(一) 什么是聚类分析
将一群物理对象或者抽象对象的划分成相似的对象类的过程。其中类簇是数据对象的集合,在类簇中所有的对象都彼此相似,而类簇与类簇之间的对象是彼此相异。 聚类除了可以用于数据分割(data segmentation),也可以用于离群点检测(outlierdetection),所谓的离群点指的是与“普通”点相对应的“异常”点,而这些“异常”点往往值的注意。 ...原创 2012-12-27 15:22:31 · 2953 阅读 · 0 评论 -
【转载】推荐几个数据分析网站
From http://blog.sina.com.cn/s/blog_5fc375650100oktm.html随着数据的数量级增长,促进了数据分析的火热。但很多数据分析从业人员却感觉没有很好的获取行业资讯、技术交流的平台,今天就推荐几个经常上的觉得很不错的网站给大家。 1.人大经济论坛-计量经济学与统计区 http://www.pinggu.org/bbs/inde...原创 2013-01-04 09:45:16 · 1038 阅读 · 1 评论 -
数据挖掘只言片语
写了好几篇关于数据挖掘算法的帖子,都属于技术上的细节贴。这篇文章主要对”数据挖掘”进行概述,让大家可以一窥数据挖掘的全貌。闲话不多说,直接进入主题。 1什么是数据挖掘业界多将“数据挖掘”定义得很玄乎,个人觉得多有炒作概念之嫌。的确,数据挖掘给使用者带来很多“意想不到”的结果(惊喜or 惊吓,嘿嘿),但并不是只有利用了高深、复杂理论的技...原创 2013-01-04 09:44:58 · 281 阅读 · 0 评论 -
【转载】如何预测用户query意图
From http://www.searchtb.com/2011/01/how-to-predict-user-query-intent.html 有一个朋友问,一个用户搜索一个query是“百度”,怎么知道用户真正是想找什么呢。我回答说,分析之前搜索这个query的用户点了些什么结果啊。朋友继续问,如果没有用户点击呢。呃,如果没有点击,这个问题就比较复杂了。整理了下思路...原创 2013-01-03 17:57:36 · 155 阅读 · 0 评论 -
关联规则(二)强关联规则一定就是用户感兴趣的规则吗
关联规则算法 Apriori 表明 , 当蕴含式A->B 满足最小支持度阈值 min_support 和最小置信度阈值 min_confidence 时,则 A->B 属于强关联规则,规则中包含用户感兴趣的知识。 但真的是这样吗?让我们先看个例子。 假设某家商场只卖两种商品: CD 机和 Mp3 两种音乐播放器,每天的交易...原创 2012-12-28 08:58:46 · 3582 阅读 · 0 评论 -
关联规则(一)Apriori算法
1.挖掘关联规则1.1 什么是关联规则一言蔽之,关联规则是形如X→Y的蕴涵式,表示通过X可以推导“得到”Y,其中X和Y分别称为关联规则的先导(antecedent或left-hand-side,LHS)和后继(consequent或r...原创 2012-12-28 08:58:17 · 1729 阅读 · 0 评论 -
聚类分析(七)离群点分析
一、 什么是离群点分析1、什么是离群点?在样本空间中,与其他样本点的一般行为或特征不一致的点,我们称为离群点。2、离群点产生的原因?第一, 计算的误差或者操作的错误所致,比如:某人的年龄-999岁,这就是明显由误操作所导致的离群点;第二, 数据本身的可变性或弹性...原创 2012-12-28 08:57:32 · 3828 阅读 · 0 评论 -
聚类分析(六)基于密度的聚类算法 — OPTICS
1 什么是OPTICS算法在前面介绍的DBSCAN算法中,有两个初始参数E(邻域半径)和minPts(E邻域最小点数)需要用户手动设置输入,并且聚类的类簇结果对这两个参数的取值非常敏感,不同的取值将产生不同的聚类结果,其实这也是大多数其他需要初始化参数聚类算法的弊端。为了克服DBSCAN算法这一缺点,提出了OPTICS算...原创 2012-12-28 08:57:16 · 3243 阅读 · 0 评论 -
聚类分析(五)基于密度的聚类算法 — DBSCAN
一 什么是基于密度的聚类算法由于层次聚类算法和划分式聚类算往往只能发现凸形的聚类簇。为了弥补这一缺陷,发现各种任意形状的聚类簇,开发出基于密度的聚类算法。这类算法认为,在整个样本空间点中,各目标类簇是由一群的稠密样本点组成的,而这些稠密样本点被低密度区域(噪声)分割,而算法的目的就是要过滤低密度区域,发现稠密样本点。二 DBSCAN(Density-based ...2012-12-27 15:35:35 · 520 阅读 · 0 评论 -
聚类分析(四)层次聚类算法
层次聚类算法:前面介绍的K-means算法和K中心点算法都属于划分式(partitional)聚类算法。层次聚类算法是将所有的样本点自底向上合并组成一棵树或者自顶向下分裂成一棵树的过程,这两种方式分别称为凝聚和分裂。凝聚层次算法:初始阶段,将每个样本点分别当做其类簇,然后合并这些原子类簇直至达到预期的类簇数或者其他终止条件。分裂层次算法...原创 2012-12-27 15:31:06 · 802 阅读 · 0 评论 -
聚类分析(三) K中心点算法(k-mediods)
K中心点算法(K-medoids)前面介绍了k-means算法,并列举了该算法的缺点。而K中心点算法(K-medoids)正好能解决k-means算法中的“噪声”敏感这个问题。如何解决的呢?首先,我们得介绍下k-means算法为什么会对“噪声”敏感。还记得K-means寻找质点的过程吗?对某类簇...原创 2012-12-27 15:28:23 · 7084 阅读 · 0 评论 -
聚类分析(二) K-MEANS
K-means算法一般情况,聚类算法可以划分为以下几类:划分方法(partitioning method)、层次方法(hierarchicalmethods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(model-based methods).k-means算法属...原创 2012-12-27 15:24:39 · 568 阅读 · 0 评论 -
话题监测与发现之热点新闻发现技术
最近在帮朋友做一个关于“热点新闻发现”的需求。先解释下什么是热点新闻发现:即在海量的新闻文本中,找到内容相似的那一类新闻,如果这类新闻的数量达到一定阈值,便认为该类新闻属于热点新闻。 其实这一类型的课题早在几年前就已经开始研究,属于TDT(Topic Detecting and Tracking话题检测与发现)分支之一,而且方法也较为成熟,多半是在文本分析的基础上利用数据挖掘中聚...原创 2013-01-25 09:51:15 · 1314 阅读 · 1 评论