数据挖掘
文章平均质量分 77
acesysu
这个作者很懒,什么都没留下…
展开
-
(1)Introduction
简介 背景 It行业的发展使得数据的体量越来越大,我们希望从这些数据中提取出有用的信息。面对这些规模巨大而且本身属性不太传统的数据,传统的数据分析工具表示无能为力。于是乎,挑战带来了机遇,数据挖掘抓住了这个机会,直面了挑战,并在实战中证明了自己。 数据挖掘是啥玩意儿 数据挖掘是一个在大量数据中自动发掘有用信息的过程。这些有用信息通常是原创 2015-05-11 11:10:43 · 446 阅读 · 0 评论 -
(2)Data-Part1. Definitions
Data 数据集通常表示成数据个体(Data Object)的集合。一条数据记录就是一个个体。常见的数据表示方式可以是表格的: Student ID Gender Score 1 Male 4 2 Female 5 3 female 3.原创 2015-05-11 16:34:45 · 476 阅读 · 0 评论 -
(4)Data.Part3.SimilarityAndDissimilarity
相似性和相异性(区别性,不同性) 相似性就是两个数据个体间的相似程度嘛,相异性就是相对的概念咯。相异性也就是距离,如果我们把数据个体看做是向量,那么相异性就是两个向量间的距离了。 相似性与相异性的转换 相似性和相异性通常都用区间[0,1]内的数值来表示。这两种值是负相关的,因此理论上任意单调递减的函数都可以用来进行两种值的转换。比如定义s为相似性的值,d为相异性的值,原创 2015-05-11 23:16:24 · 725 阅读 · 0 评论 -
(3)Data-Part2.Operations
上部分讲了些跟数据有关的概念,这部分来聊一聊操作。 这里讲的操作其实是对数据预处理的操作。大概有以下这些操作。 数据聚合(Aggregation) 数据取样(Sampling) 数据降维 属性子集选取 构建属性 离散化和二分化属性 变量转换 数据聚合 有个思想叫做"les原创 2015-05-11 21:37:45 · 407 阅读 · 0 评论