大数据初步调研_xingquan zhu, senior member, ieee,-CSDN博客

本文链接：https://blog.csdn.net/aleeustc/article/details/52597653

Ò 大数据初步调研

Ò 2014-4 月

Ò “大”数据的直观含义

Ò 算法上：处理中小规模数据调入内存执行，在大数据（超大规模数据）不能直接运用了

Ò 一个时代的大数据是下一个时代的小规模数据

Ò 99 年对“大”数据分析的技术策略对现在的大数据分析依然相同：

机器学习+高性能计算+并行分布式高效存储

Ò 机器学习与数据挖掘

Ò 参考 1 ：《机器学习与数据挖掘》周志华，南京大学计算机软件新技术国家重点实验室

Ò 机器学习：利用经验来改善计算机系统自身的性能。“经验”在计算机系统中主要是以数据的形式存在的。

Ò 数据挖掘、知识发现：试图从海量数据中找出有用的知识。

Ò 雄关漫道 ---- 机器学习（人工智能）的发展

Ò 机器学习是人工智能发展到一定时期的产物。

Ò 20 世纪 50 年代到 70 年代 —— “推理期”：逻辑理论家程序，通用问题求解

Ò 20 世纪 70 年代中期开始 —— “知识期”：大量专家系统，但瓶颈是人总结知识教给机器困难。

机器自己能够学习知识！

Ò 雄关漫道 ---- 机器学习（人工智能）的发展（续）

Ò 1950—— 图灵测试：提到机器学习的可能性

Ò 20 世纪 50 年代 —— 主要集中在基于神经网络的连接主义学习：感知机， Adaline

Ò 20 世纪 6 、 70 年代 —— 多种学习技术初步发展：以决策理论为基础的统计学习技术、强化学习技术（跳棋程序、学习机器，统计学习理论的重要结果），基于逻辑或图结构表示的符号学习技术（结构学习系统、基于逻辑的归纳学习系统、概念学习系统）。

Ò 雄关漫道 ---- 机器学习的发展

Ò 20 世纪 80 年代 —— 机器学习成为一个独立学科，各种技术百花齐放

Ò 雄关漫道 ---- 机器学习的发展（续）

Ò 从例子中学习，即广义的归纳学习，即从训练例中归纳出学习结果。

É 涵盖了监督学习（例如分类、回归）、非监督学习（例如聚类）等众多内容。

É 20 世纪 90 年代中期之前 ——

Ð 归纳逻辑程序设计，是机器学习和逻辑程序设计的交叉，问题在学习过程所面临的假设空间太大，不适合大规模问题。

Ð 基于神经网络的连接主义学习，著名的 BP 算法，缺陷是大量的经验参数。

Ò 雄关漫道 ---- 机器学习的发展（续）

É 20 世纪 90 年代中期 —— 统计学习

Ð 支持向量、 VC 维、结构风险最小化原则

Ð 有效的支持向量机算法

Ð 支持向量机中的“核方法”被用到机器学习的每一个角落

Ð 缺陷是核映射的选择依然依赖经验

É 统计学习与连接主义学习一样是基于“属性 - 值”表现形式，难以有效表示复杂数据和数据关系

É 经常需要对问题作出假设，来保证统计性质

Ò 雄关漫道 ---- 机器学习的发展（续）

Ò 参考 2 ： T.G. Dietterich .Machine learning research: Four current directions. AI Magazine, 1997, 18(4): 97-136 .

Ò Thefour directions are

É (1)the improvement of classification accuracy by learning ensembles of classifiers , 集成学习

É (2)methods for scaling up supervised learning algorithms, 可扩展机器学习

É (3) reinforcement learning , 强化学习

É (4)the learning of complex stochastic models . 随机模型

Ò 数据挖掘

Ò 数据挖掘是一个直接为实际应用而生的学科领域。

Ò 数据挖掘受到了很多学科领域的影响，其中数据库、机器学习、统计学无疑影响最大。

É 数据库提供数据管理技术，机器学习和统计学提供数据分析技术。

É 从数据分析的角度来看，绝大多数数据挖掘技术都来自机器学习领域。

Ò 数据分析？ = 机器学习的简单应用

Ò 区别：传统机器学习很多技术为处理中小规模数据设计。例如：传统决策树算法把所有数据读到内存中

É 数据挖掘界的改造利用：引入高效的数据结构和数据调度策略等来改造决策树学习过程

É 海量数据对于算法设计带来巨大挑战

Ò 关联分析 ---- 数据挖掘学科的独特之处

É 少量数据时，直接使用统计学知识即可；困难在于海量数据。

Ò 会议期刊

Ò 在机器学习方面，最重要的学术会议是 NIPS 、 ICML 、 ECML 和 COLT ，最重要的学术期刊是《 MachineLearning 》和《 Journalof Machine Learning Research 》；

Ò 在数据挖掘方面，最重要的学术会议是 SIGKDD 、 ICDM 、 SDM 、 PKDD 和 PAKDD ，最重要的学术期刊是《 DataMining and Knowledge Discovery 》和《 IEEETransactions on Knowledge and Data Engineering 》。

Ò 此外，人工智能领域的顶级会议如 IJCAI 和 AAAI 、

Ò 数据库领域的顶级会议如 SIGMOD 、 VLDB 、 ICDE ，

Ò 以及一些顶级期刊如《 ArtificialIntelligence 》、《 Journalof Artificial Intelligence Research 》、《 IEEETransactions on Pattern Analysis and Machine Intelligence 》、《 NeuralComputation 》等也经常发表机器学习和数据挖掘方面的论文。

Ò 一图了解数据挖掘算法

Ò 国际权威的学术组织 theIEEE International Conference on Data Mining (ICDM) 2006 年 12 月评选出了数据挖掘领域的十大经典算法：

Ò C4.5 （分类决策树算法） , k-Means （一个聚类算法，把 n 的对象根据他们的属性分为 k 个分割） , SVM （支持向量机，一种監督式學習的方法，它广泛的应用于统计分类以及回归分析中） , Apriori （一种最有影响的挖掘布尔关联规则频繁项集的算法） , EM （最大期望 (EM ， Expectation-Maximization) 算法是在概率 (probabilistic) 模型中寻找参数最大似然估计的算法） , PageRank （ Google 算法的重要内容， PageRank 根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。） , AdaBoost （一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器 ( 弱分类器 ) ，然后把这些弱分类器集合起来，构成一个更强的最终分类器 ( 强分类器 ) ） , kNN （ K 最近邻 (k-NearestNeighbor ， KNN) 分类算法） , Naive Bayes （朴素贝叶斯模型分类） , CART （ Classification and Regression Trees 分类与回归树）。

Ò 大数据分析的技术策略

Ò 机器学习 +

高性能计算 +

并行分布式高效存储

Ò 大数据领域十大巨头（ CSDN 评）

Ò 开源大数据技术（ CSDN 评）

Ò Apache Hbase : 大数据管理平台建立在谷歌强大的 BigTable 管理引擎基础上。作为具有开源、 Java 编码、分布式多个优势的数据库。

Ò ApacheStorm: 用于处理高速、大型数据流的分布式实时计算系统。

Ò ApacheSpark ：采用内存计算，从多迭代批量处理出发，允许将数据载入内存做反复查询，此外还融合数据仓库、流处理和图计算等多种计算范式， Spark 用 Scala 语言实现，构建在 HDFS 上，能与 Hadoop 很好的结合，而且运行速度比 MapReduce 快 100 倍。

Ò Apache Hadoop ：成为了大数据管理标准之一。平台的灵活性使它可以运行在商用硬件系统，它还可以轻松地集成结构化、半结构化和甚至非结构化数据集。

Ò ApacheDrill ：通过支持 HBase 、 Cassandra 和 MongoDB ， Drill 建立了交互式分析平台，允许大规模数据吞吐，而且能很快得出结果。

Ò 开源大数据技术（续）

Ò Apache Sqoop : 采用并发连接，可以将数据从关系数据库系统方便地转移到 Hadoop 中，可以自定义数据类型以及元数据传播的映射。

Ò Apache Giraph : 功能强大的图形处理平台，具有很好可扩展性和可用性。

Ò Cloudera Impala ： Impala 模型也可以部署在现有的 Hadoop 群集上，监视所有的查询。

Ò Gephi : 用来对信息进行关联和量化处理，通过为数据创建功能强大的可视化效果。还可以对复杂的 IT 连接、分布式系统中各个节点、数据流等信息进行可视化分析。

Ò MongoDB: MongoDB 是一个应用开源技术开发的 NoSQL 数据库，可以用于在 JSON 这样的平台上存储和处理数据。

Ò “大数据”的技术基石

Ò 众多环绕数据库的技术

Ò 对信息进行关联和量化处理和展现可视化效果

Ò 计算、图形处理

Ò 大数据开源框架之一 HADOOP/MAPREDUCEHBASE HIVE PIG ZOOKEEPER

Ò Hadoop Common: 在 0.20 及以前的版本中，包含 HDFS 、 MapReduce 和其他项目公共内容，从 0.21 开始 HDFS 和 MapReduce 被分离为独立的子项目，其余内容为 Hadoop Common

Ò HDFS : Hadoop 分布式文件系统 (DistributedFile System) － HDFS ( Hadoop Distributed File System)

Ò MapReduce ：并行计算框架， 0.20 前使用 org.apache.hadoop.mapred 旧接口， 0.20 版本开始引入 org.apache.hadoop.mapreduce 的新 API

Ò HBase : 类似 Google BigTable 的分布式 NoSQL 列数据库。（ HBase 和 Avro 已经于 2010 年 5 月成为顶级 Apache 项目）

Ò Hive ：数据仓库工具，由 Facebook 贡献。

Ò Zookeeper ：分布式锁设施，提供类似 GoogleChubby 的功能，由 Facebook 贡献。

Ò Avro ：新的数据序列化格式与传输工具，将逐步取代 Hadoop 原有的 IPC 机制。

Ò Pig: 大数据分析平台，为用户提供多种接口。

Ò Ambari [6] ： Hadoop 管理工具，可以快捷的监控、部署、管理集群。

Ò Sqoop ：在 HADOOP 与传统的数据库间进行数据的传递。

Ò 大数据开源框架之二 Berkeley DataAnalytics Stack(tachyon, spark, shark ， spark streaming)

Ò IBM 大数据平台产品

Ò 三种分析引擎：

É 流计算

É Hadoop 系统

É 数据仓库

Ò 可扩展，支持第三方分析数据存储

Ò IBM 大数据平台

Ò Transwarp DH 星环科技产品

Ò 星环科技产品（续）

Ò Transwarp DH 星环科技产品（续）

Ò 大数据的研究方向

Ò 大数据研究

Ò 参考 3 ： Data Mining with Big Data ， Xindong Wu, Fellow, IEEE, Xingquan Zhu, Senior Member, IEEE,Gong -QingWu, and Wei Ding, Senior Member, IEEEIEEE TRANSACTIONS ON KNOWLEDGE AND DATAENGINEERING, VOL. 26, NO. 1, JANUARY 2014

Ò HACE Theorem: Big Data starts with large-volume,

heterogeneous,autonomoussourceswith distributed and

decentralized control, and seeks to explorecomplexand

evolvingrelationships among data.

Ò DataMining with Big Data ， Xindong Wu,et al.

Ò DataMining with Big Data ， Xindong Wu,et al. 技术方案

Ò TierI : Big Data Mining Platform

Ò parallelcomputing ---- J.Shafer, R. Agrawal ,and M. Mehta, “SPRINT: A Scalable Parallel Classifier for Data Mining,” Proc.22nd VLDB Conf., 1996.[ 参考 4]

Ò D. Luo ,C. Ding, and H. Huang, “Parallelization with Multiplicative

Ò Algorithmsfor Big Data Mining,” Proc. IEEE 12th Int’l

Ò Conf.Data Mining, pp. 489-498, 2012.[ 参考 5]

collective mining----R.Chen, K.Sivakumar,and H.Kargupta,“Collective Mining of Bayesian Networks from Distributed Heterogeneous Data”,Knowledge and Information Systems, vol. 6, no. 2, pp. 164-187, 2004 [参考6]

Ò DataMining with Big Data ， Xindong Wu,et al. 技术方案 ( 续 )

Ò TierII : Big Data Semantics and Application Knowledge

Ò Informationsharing and data privacy----

É 1)restrict access to the data

É 2) anonymize data fields---- Y. Lindell and B. Pinkas ,“Privacy Preserving Data Mining,”J .Cryptology, vol. 15, no. 3, pp. 177-206, 2002.[ 参考 7]

Ò Domainand Application Knowledge

I. Kopanas,N.Avouris,and S.Daskalaki,“The Role of Domain

Knowledgein a Large Scale Data Mining Project,” Proc. Second

HellenicConf. AI: Methods and Applications of Artificial Intelligence,

I.P.Vlahavas,C.D.Spyropoulos,eds., pp. 288-299, 2002.

Ò DataMining with Big Data ， Xindong Wu,et al. 技术方案 ( 续 )

Ò TierIII : Big Data Mining Algorithms

Ò Locallearning and model fusion for multiple information sources---- theglobal mining can be featured with a two-step ( localmining and globalcorrelation ) process, at data, model, and atknowledge levels.

Ò Miningfrom sparse,uncertain,and incomplete data

Ò Mingcomplex and dynamic data: the value of Big Data is in its complexity

É Complexheterogeneous data types.

É Complexintrinsic semantic associations in data.

É Complexrelationship networks in data.

Ò DataMining with Big Data ， Xindong Wu,et al. 研究进展

Ò MapReduce parallel programming being applied to many machine learning and data miningalgorithms.

Ò Chu et al .To improve the efficiency of algorithms, Chu et al. proposed ageneral-purpose parallel programming method , which is applicable to a large number of machine learning algorithmsbased on the simple MapReduce programming model on multicore processors. Ten classical data mining algorithms are realized in the framework.

Ò Ranger et al .proposed a MapReduce -basedapplication programming interfacePhoenix , which supports parallel programming in the environment of multicore and multiprocessor systems, and realized three data mining algorithms includingk-Means, principal component analysis, and linear regression.

Ò DataMining with Big Data ， Xindong Wu,et al. 研究进展

Ò Papadimitriouand Sun proposed a distributed collaborativeaggregation ( DisCo )framework using practical distributed datapreprocessing and collaborative aggregation techniques.

Ò Daset al . conducted a study of the integration of R (open sourcestatistical analysis software) and Hadoop . Thein-depth integration pushes data computation to parallel processing, whichenables powerful deep analysis capabilities for Hadoop .

Ò Wegeneret al . achieved the integration of Weka (an open-source machine learning and data mining software tool) and MapReduce .Standard Weka tools can only run on a single machine, with a limitation of 1-GB memory. Afteralgorithm parallelization, Weka breaks through the limitations and improves performance by taking the advantageof parallel computing to handle more than 100-GB data on MapReduce clusters.

Ò Ghoting et al. proposed Hadoop -ML , onwhich developers can easily build task-parallel or data-parallel machinelearning and data mining algorithms on program blocks under the languageruntime environment.

Ò DataMining with Big Data ， Xindong Wu,et al. 研究进展

Ò Onconfidentiality protection in Big Data, Efficient and effective data accessmechanism

Ò Wanget al. a privacy-preserving publicauditing mechanism for large scale data storage (such ascloud computing systems) has been proposed. The public key-based mechanism isused to enable third-party auditing (TPA), so users can safely allow a thirdparty to analyze their data without breaching the security settings orcompromising the data privacy.

Ò Onexcluding the third party(such as data miners) , privacy-preserving approachesor encryption mechanisms

Ò Lorch et al . In their system, namely Shround , users’ data access patterns fromthe servers are hidden by using virtual disks.

Ò DataMining with Big Data ， Xindong Wu,et al. 研究进展

Ò expandedexisting data mining methods in many ways ( multisource,massive,dynamic Big Data)

É theefficiency improvement of single-source knowledge discovery methods ,

É Designinga data mining mechanism from a multisource perspective,

É dynamicdata mining methods ,

É analysisof stream data ,

É Wu et al .proposed and established thetheory of local pattern analysis ,which has laid a foundation for global knowledge discovery in multisource datamining.

Ò 机器学习与小娃娃学习

Ò References

Ò 参考 1 ：《机器学习与数据挖掘》周志华，南京大学计算机软件新技术国家重点实验室

Ò 参考 2 ： T.G. Dietterich .Machine learning research: Four current directions. AI Magazine, 1997, 18(4): 97-136.

Ò 参考 4: Agrawal ,and M. Mehta, “SPRINT: A Scalable Parallel Classifier for Data Mining,” Proc.22nd VLDB Conf., 1996.

Ò 参考 5: D. Luo ,C. Ding, and H. Huang, “Parallelization with Multiplicative Algorithms for BigData Mining,” Proc. IEEE 12th Int’l Conf. Data Mining, pp. 489-498, 2012

Ò 参考 6: R. Chen, K. Sivakumar ,and H. Kargupta ,“Collective Mining of Bayesian Networks from Distributed Heterogeneous Data”,Knowledge and Information Systems, vol. 6, no. 2, pp. 164-187, 2004

Ò 参考 7:Y. Lindell and B. Pinkas ,“Privacy Preserving Data Mining,”J .Cryptology, vol. 15, no. 3, pp. 177-206, 2002.

谢谢大家！