Ò
大数据初步调研
Ò
Ò
2014-4
月
Ò
“大”数据的直观含义
Ò
算法上:处理中小规模数据调入内存执行,在大数据(超大规模数据)不能直接运用了
Ò
Ò
一个时代的大数据是下一个时代的小规模数据
Ò
Ò
99
年对“大”数据分析的技术策略对现在的大数据分析依然相同:
机器学习+高性能计算+并行分布式高效存储
Ò
机器学习与数据挖掘
Ò
参考
1
:
《
机器学习与数据挖掘
》
周志华
,南京大学计算机软件新技术国家重点实验室
Ò
机器学习:利用经验来改善计算机系统自身的性能。“经验”在计算机系统中主要是以数据的形式存在的。
Ò
数据挖掘、知识发现:试图从海量数据中找出有用的知识。
Ò
Ò
Ò
雄关漫道
----
机器学习(人工智能)的发展
Ò
机器学习是人工智能发展到一定时期的产物。
Ò
20
世纪
50
年代到
70
年代
——
“推理期”:逻辑理论家程序,通用问题求解
Ò
20
世纪
70
年代中期开始
——
“知识期”:大量专家系统,但瓶颈是人总结知识教给机器困难。
É
机器自己能够学习知识!
Ò
雄关漫道
----
机器学习(人工智能)的发展(续)
Ò
1950——
图灵测试:提到机器学习的可能性
Ò
20
世纪
50
年代
——
主要集中在基于神经网络的连接主义学习:感知机,
Adaline
Ò
20
世纪
6
、
70
年代
——
多种学习技术初步发展:以决策理论为基础的统计学习技术、强化学习技术(跳棋程序、学习机器,统计学习理论的重要结果),基于逻辑或图结构表示的符号学习技术(结构学习系统、基于逻辑的归纳学习系统、概念学习系统)。
Ò
雄关漫道
----
机器学习的发展
Ò
20
世纪
80
年代
——
机器学习成为一个独立学科,各种技术百花齐放
Ò
Ò
Ò
雄关漫道
----
机器学习的发展(续)
Ò
从例子中学习,即广义的归纳学习,即从训练例中归纳出学习结果。
É
涵盖了
监督学习
(例如
分类
、
回归
)、
非监督学习
(例如
聚类
)等众多内容。
É
20
世纪
90
年代中期之前
——
Ð
归纳逻辑程序设计
,是机器学习和逻辑程序设计的交叉,问题在学习过程所面临的假设空间太大,不适合大规模问题。
Ð
基于神经网络的连接主义学习
,著名的
BP
算法,缺陷是大量的经验参数。
Ð
Ð
Ò
雄关漫道
----
机器学习的发展(续)
É
20
世纪
90
年代中期
——
统计学习
Ð
支持向量、
VC
维、结构风险最小化原则
Ð
有效的
支持向量机算法
Ð
支持向量机中的“核方法”被用到机器学习的每一个角落
Ð
缺陷是核映射的选择依然依赖经验
É
统计学习与连接主义学习一样是基于“属性
-
值”表现形式,难以有效表示复杂数据和数据关系
É
经常需要对问题作出假设,来保证统计性质
Ð
Ò
雄关漫道
----
机器学习的发展(续)
Ò
参考
2
:
T.G.
Dietterich
.Machine learning research: Four current directions.
AI Magazine, 1997, 18(4): 97-136
.
Ò
Thefour directions are
É
(1)the improvement of classification accuracy by
learning ensembles of classifiers
,
集成学习
É
(2)methods for
scaling up supervised learning algorithms,
可扩展机器学习
É
(3)
reinforcement learning
,
强化学习
É
(4)the learning of complex
stochastic models
.
随机模型
Ò
数据挖掘
Ò
数据挖掘
是一个直接为实际应用而生的学科领域。
Ò
数据挖掘受到了很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大。
É
数据库
提供
数据管理技术
,
机器学习
和
统计学
提供
数据分析技术
。
É
从数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域。
Ò
数据分析?
=
机器学习的简单应用
Ò
区别:传统机器学习很多技术为处理中小规模数据设计。例如:传统决策树算法把所有数据读到内存中
É
数据挖掘界的改造利用:
引入高效的数据结构
和
数据调度策略
等来
改造决策树学习过程
É
海量数据对于算法设计带来巨大挑战
É
Ò
关联分析
----
数据挖掘学科的独特之处
É
少量数据时,直接使用统计学知识即可;困难在于海量数据。
Ò
Ò
会议期刊
Ò
在
机器学习
方面,最重要的学术会议是
NIPS
、
ICML
、
ECML
和
COLT
,最重要的学术期刊是《
MachineLearning
》和《
Journalof Machine Learning Research
》;
Ò
Ò
在
数据挖掘
方面,最重要的学术会议是
SIGKDD
、
ICDM
、
SDM
、
PKDD
和
PAKDD
,最重要的学术期刊是《
DataMining and Knowledge Discovery
》和《
IEEETransactions on Knowledge and Data Engineering
》。
Ò
Ò
此外,
人工智能
领域的顶级会议如
IJCAI
和
AAAI
、
Ò
Ò
数据库
领域的顶级会议如
SIGMOD
、
VLDB
、
ICDE
,
Ò
Ò
以及一些顶级期刊如《
ArtificialIntelligence
》、《
Journalof Artificial Intelligence Research
》、《
IEEETransactions on Pattern Analysis and Machine Intelligence
》、《
NeuralComputation
》等也经常发表机器学习和数据挖掘方面的论文。
Ò
Ò
一图了解数据挖掘算法
Ò
Ò
国际权威的学术组织
theIEEE International Conference on Data Mining (ICDM) 2006
年
12
月评选出了数据挖掘领域的十大经典算法:
Ò
C4.5
(分类决策树算法)
,
k-Means
(
一个聚类算法,把
n
的对象根据他们的属性分为
k
个分割)
,
SVM
(支持向量机,一种監督式學習的方法,它广泛的应用于统计分类以及回归分析中)
,
Apriori
(一种最有影响的挖掘布尔关联规则频繁项集的算法)
,
EM
(最大期望
(EM
,
Expectation-Maximization)
算法是在概率
(probabilistic)
模型中寻找参数最大似然估计的算法)
,
PageRank
(
Google
算法的重要内容,
PageRank
根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。)
,
AdaBoost
(一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器
(
弱分类器
)
,然后把这些弱分类器集合起来,构成一个更强的最终分类器
(
强分类器
)
)
,
kNN
(
K
最近邻
(k-NearestNeighbor
,
KNN)
分类算法)
,
Naive
Bayes
(朴素贝叶斯模型分类)
,
CART
(
Classification and Regression Trees
分类与回归树)
。
Ò
Ò
大数据分析的技术策略
Ò
Ò
机器学习
+
Ò
高性能计算 +
并行分布式高效存储
Ò
Ò
大数据领域十大巨头(
CSDN
评)
Ò
开源大数据技术(
CSDN
评)
Ò
Apache
Hbase
:
大数据管理平台建立在谷歌强大的
BigTable
管理引擎基础上。作为具有开源、
Java
编码、分布式多个优势的数据库。
Ò
ApacheStorm:
用于处理高速、大型数据流的分布式实时计算系统。
Ò
ApacheSpark
:
采用内存计算,从多迭代批量处理出发,允许将数据载入内存做反复查询,此外还融合数据仓库、流处理和图计算等多种计算范式,
Spark
用
Scala
语言实现,构建在
HDFS
上,能与
Hadoop
很好的结合,而且运行速度比
MapReduce
快
100
倍。
Ò
Apache
Hadoop
:
成为了大数据管理标准之一。平台的灵活性使它可以运行在商用硬件系统,它还可以轻松地集成结构化、半结构化和甚至非结构化数据集。
Ò
ApacheDrill
:
通过支持
HBase
、
Cassandra
和
MongoDB
,
Drill
建立了交互式分析平台,允许大规模数据吞吐
,而且能很快得出结果。
Ò
开源大数据技术(续)
Ò
Apache
Sqoop
:
采用并发连接,可以将数据从关系数据库系统方便地转移到
Hadoop
中,可以自定义数据类型以及元数据传播的映射。
Ò
Apache
Giraph
:
功能强大的图形处理平台,具有很好可扩展性和可用性。
Ò
Cloudera
Impala
:
Impala
模型也可以部署在现有的
Hadoop
群集上,监视所有的查询。
Ò
Gephi
:
用来对信息进行关联和量化处理,通过为数据创建功能强大的可视化效果。还可以对复杂的
IT
连接、分布式系统中各个节点、数据流等信息进行可视化分析。
Ò
MongoDB:
MongoDB
是一个应用开源技术开发的
NoSQL
数据库,可以用于在
JSON
这样的平台上存储和处理数据。
Ò
Ò
“大数据”的技术基石
Ò
众多环绕
数据库
的技术
Ò
Ò
Ò
Ò
Ò
对信息进行
关联
和
量化处理
和
展现
可视化效果
Ò
计算
、
图形处理
Ò
Hadoop
Common:
在
0.20
及以前的版本中,包含
HDFS
、
MapReduce
和其他项目公共内容,从
0.21
开始
HDFS
和
MapReduce
被分离为独立的子项目,其余内容为
Hadoop
Common
Ò
HDFS
:
Hadoop
分布式文件系统
(DistributedFile System)
-
HDFS (
Hadoop
Distributed File System)
Ò
MapReduce
:
并行计算
框架,
0.20
前使用
org.apache.hadoop.mapred
旧接口,
0.20
版本开始引入
org.apache.hadoop.mapreduce
的新
API
Ò
HBase
:
类似
Google
BigTable
的分布式
NoSQL
列数据库。(
HBase
和
Avro
已经于
2010
年
5
月成为顶级
Apache
项目)
Ò
Hive
:数据仓库工具,由
Facebook
贡献。
Ò
Zookeeper
:分布式锁设施,提供类似
GoogleChubby
的功能,由
Facebook
贡献。
Ò
Avro
:新的数据序列化格式与传输工具,将逐步取代
Hadoop
原有的
IPC
机制。
Ò
Pig:
大数据分析平台,为用户提供多种接口。
Ò
Ambari
[6]
:
Hadoop
管理工具,可以快捷的监控、部署、管理集群。
Ò
Sqoop
:在
HADOOP
与传统的数据库间进行数据的传递。
Ò
Ò
IBM
大数据平台产品
Ò
三种分析引擎:
É
流计算
É
Hadoop
系统
É
数据仓库
Ò
Ò
可扩展,支持第三方分析数据存储
Ò
É
Ò
IBM
大数据平台
Ò
IBM
大数据平台
Ò
Transwarp
DH
星环科技产品
Ò
星环科技产品(续)
Ò
Transwarp
DH
星环科技产品(续)
Ò
大数据的研究方向
Ò
大数据研究
Ò
参考
3
:
Data Mining with Big Data
,
Xindong
Wu, Fellow, IEEE,
Xingquan
Zhu, Senior Member,
IEEE,Gong
-QingWu, and Wei Ding, Senior Member, IEEEIEEE TRANSACTIONS ON KNOWLEDGE AND DATAENGINEERING, VOL. 26, NO. 1, JANUARY 2014
Ò
HACE Theorem:
Big Data starts with large-volume,
heterogeneous,autonomoussourceswith distributed and
decentralized control, and seeks to explorecomplexand
evolvingrelationships among data.
Ò
DataMining with Big Data
,
Xindong
Wu,et
al.
Ò
DataMining with Big Data
,
Xindong
Wu,et
al.
技术方案
Ò
TierI : Big Data Mining Platform
Ò
parallelcomputing
----
J.Shafer, R.
Agrawal
,and M. Mehta, “SPRINT: A Scalable Parallel Classifier for Data Mining,” Proc.22nd VLDB Conf., 1996.[
参考
4]
Ò
D.
Luo
,C. Ding, and H. Huang, “Parallelization with Multiplicative
Ò
Algorithmsfor Big Data Mining,” Proc. IEEE 12th Int’l
Ò
Conf.Data Mining, pp. 489-498, 2012.[
参考
5]
collective mining----R.Chen, K.Sivakumar,and H.Kargupta,“Collective Mining of Bayesian Networks from Distributed Heterogeneous Data”,Knowledge and Information Systems, vol. 6, no. 2, pp. 164-187, 2004 [参考6]
Ò
DataMining with Big Data
,
Xindong
Wu,et
al.
技术方案
(
续
)
Ò
TierII : Big Data Semantics and Application Knowledge
Ò
Informationsharing and data privacy----
É
1)restrict access to the data
É
2)
anonymize
data fields----
Y.
Lindell
and B.
Pinkas
,“Privacy Preserving Data
Mining,”J
.Cryptology, vol. 15, no. 3, pp. 177-206, 2002.[
参考
7]
Ò
Domainand Application Knowledge
I. Kopanas,N.Avouris,and S.Daskalaki,“The Role of Domain
Knowledgein a Large Scale Data Mining Project,” Proc. Second
HellenicConf. AI: Methods and Applications of Artificial Intelligence,
I.P.Vlahavas,C.D.Spyropoulos,eds., pp. 288-299, 2002.
Ò
Ò
DataMining with Big Data
,
Xindong
Wu,et
al.
技术方案
(
续
)
Ò
TierIII : Big Data Mining Algorithms
Ò
Locallearning and model fusion for multiple information sources----
theglobal mining can be featured with a two-step (
localmining
and
globalcorrelation
) process, at data, model, and atknowledge levels.
Ò
Miningfrom
sparse,uncertain,and
incomplete data
Ò
Mingcomplex and dynamic data: the value of Big Data is in its complexity
É
Complexheterogeneous data types.
É
Complexintrinsic semantic associations in data.
É
Complexrelationship networks in data.
Ò
DataMining with Big Data
,
Xindong
Wu,et
al.
研究进展
Ò
MapReduce
parallel programming being applied to many machine learning and data miningalgorithms.
Ò
Chu et al
.To improve the efficiency of algorithms, Chu et al. proposed
ageneral-purpose parallel programming method
,
which is applicable to a large number of machine learning
algorithmsbased
on the simple
MapReduce
programming model on
multicore
processors. Ten classical data mining algorithms are realized in the framework.
Ò
Ranger et al
.proposed
a
MapReduce
-basedapplication programming interfacePhoenix
,
which supports parallel programming in the environment of
multicore
and multiprocessor systems, and realized three data mining algorithms includingk-Means, principal component analysis, and linear regression.
Ò
DataMining with Big Data
,
Xindong
Wu,et
al.
研究进展
Ò
Papadimitriouand Sun
proposed
a distributed collaborativeaggregation (
DisCo
)framework
using practical distributed datapreprocessing and collaborative aggregation techniques.
Ò
Daset al
. conducted a study of
the integration of R (open sourcestatistical analysis software) and
Hadoop
.
Thein-depth integration pushes data computation to parallel processing, whichenables powerful deep analysis capabilities for
Hadoop
.
Ò
Wegeneret al
. achieved
the integration of
Weka
(an open-source machine learning and data mining software tool) and
MapReduce
.Standard
Weka
tools can only run on a single machine, with a limitation of 1-GB memory. Afteralgorithm parallelization,
Weka
breaks through the limitations and improves performance by taking the advantageof parallel computing to handle more than 100-GB data on
MapReduce
clusters.
Ò
Ghoting
et al.
proposed
Hadoop
-ML
,
onwhich developers can easily build task-parallel or data-parallel machinelearning and data mining algorithms on program blocks under the languageruntime environment.
Ò
DataMining with Big Data
,
Xindong
Wu,et
al.
研究进展
Ò
Onconfidentiality protection in Big Data, Efficient and effective data accessmechanism
Ò
Wanget al.
a
privacy-preserving publicauditing mechanism
for large scale data storage (such ascloud computing systems) has been proposed. The public key-based mechanism isused to enable third-party auditing (TPA), so users can safely allow a thirdparty to analyze their data without breaching the security settings orcompromising the data privacy.
Ò
Onexcluding the third party(such as data miners) , privacy-preserving approachesor encryption mechanisms
Ò
Lorch
et al
. In their system, namely
Shround
,
users’ data access patterns
fromthe servers are hidden by using virtual disks.
Ò
DataMining with Big Data
,
Xindong
Wu,et
al.
研究进展
Ò
expandedexisting data mining methods in many ways (
multisource,massive,dynamic
Big Data)
É
theefficiency improvement of single-source knowledge discovery methods ,
É
Designinga data mining mechanism from a multisource perspective,
É
dynamicdata mining methods ,
É
analysisof stream data ,
É
Wu et al
.proposed and established
thetheory of local pattern analysis
,which has laid a foundation for global knowledge discovery in multisource datamining.
Ò
机器学习与小娃娃学习
Ò
References
Ò
参考
1
:
《
机器学习与数据挖掘
》
周志华
,南京大学计算机软件新技术国家重点实验室
Ò
参考
2
:
T.G.
Dietterich
.Machine learning research: Four current directions.
AI Magazine, 1997, 18(4): 97-136.
Ò
参考
3
:
Data Mining with Big Data
,
Xindong
Wu, Fellow, IEEE,
Xingquan
Zhu, Senior Member,
IEEE,Gong
-QingWu, and Wei Ding, Senior Member, IEEEIEEE TRANSACTIONS ON KNOWLEDGE AND DATAENGINEERING, VOL. 26, NO. 1, JANUARY 2014
Ò
参考
4:
Agrawal
,and M. Mehta, “SPRINT: A Scalable Parallel Classifier for Data Mining,” Proc.22nd VLDB Conf., 1996.
Ò
参考
5: D.
Luo
,C. Ding, and H. Huang, “Parallelization with Multiplicative Algorithms for BigData Mining,” Proc. IEEE 12th Int’l Conf. Data Mining, pp. 489-498, 2012
Ò
参考
6: R. Chen, K.
Sivakumar
,and H.
Kargupta
,“Collective Mining of Bayesian Networks from Distributed Heterogeneous Data”,Knowledge and Information Systems, vol. 6, no. 2, pp. 164-187, 2004
Ò
参考
7:Y.
Lindell
and B.
Pinkas
,“Privacy Preserving Data
Mining,”J
.Cryptology, vol. 15, no. 3, pp. 177-206, 2002.
Ò
Ò
Ò
Ò
Ò
谢谢大家!
Ò