大数据初步调研

Ò 大数据初步调研
Ò
Ò 2014-4
Ò “大”数据的直观含义
Ò 算法上:处理中小规模数据调入内存执行,在大数据(超大规模数据)不能直接运用了
Ò
Ò 一个时代的大数据是下一个时代的小规模数据
Ò
Ò 99 年对“大”数据分析的技术策略对现在的大数据分析依然相同:

  机器学习+高性能计算+并行分布式高效存储

Ò 机器学习与数据挖掘
Ò 参考 1 机器学习与数据挖掘 周志华 ,南京大学计算机软件新技术国家重点实验室
Ò 机器学习:利用经验来改善计算机系统自身的性能。“经验”在计算机系统中主要是以数据的形式存在的。
Ò 数据挖掘、知识发现:试图从海量数据中找出有用的知识。
Ò
Ò
Ò 雄关漫道 ---- 机器学习(人工智能)的发展
Ò 机器学习是人工智能发展到一定时期的产物。
Ò 20 世纪 50 年代到 70 年代 —— “推理期”:逻辑理论家程序,通用问题求解
Ò 20 世纪 70 年代中期开始 —— “知识期”:大量专家系统,但瓶颈是人总结知识教给机器困难。
É

  机器自己能够学习知识!

Ò 雄关漫道 ---- 机器学习(人工智能)的发展(续)
Ò 1950—— 图灵测试:提到机器学习的可能性
Ò 20 世纪 50 年代 —— 主要集中在基于神经网络的连接主义学习:感知机, Adaline
Ò 20 世纪 6 70 年代 —— 多种学习技术初步发展:以决策理论为基础的统计学习技术、强化学习技术(跳棋程序、学习机器,统计学习理论的重要结果),基于逻辑或图结构表示的符号学习技术(结构学习系统、基于逻辑的归纳学习系统、概念学习系统)。
Ò 雄关漫道 ---- 机器学习的发展
Ò 20 世纪 80 年代 —— 机器学习成为一个独立学科,各种技术百花齐放
Ò
Ò
Ò 雄关漫道 ---- 机器学习的发展(续)
Ò 从例子中学习,即广义的归纳学习,即从训练例中归纳出学习结果。
É 涵盖了 监督学习 (例如 分类 回归 )、 非监督学习 (例如 聚类 )等众多内容。
É 20 世纪 90 年代中期之前 ——
Ð 归纳逻辑程序设计 ,是机器学习和逻辑程序设计的交叉,问题在学习过程所面临的假设空间太大,不适合大规模问题。
Ð 基于神经网络的连接主义学习 ,著名的 BP 算法,缺陷是大量的经验参数。
Ð
Ð
Ò 雄关漫道 ---- 机器学习的发展(续)
É 20 世纪 90 年代中期 —— 统计学习
Ð 支持向量、 VC 维、结构风险最小化原则
Ð 有效的 支持向量机算法
Ð 支持向量机中的“核方法”被用到机器学习的每一个角落
Ð 缺陷是核映射的选择依然依赖经验
É 统计学习与连接主义学习一样是基于“属性 - 值”表现形式,难以有效表示复杂数据和数据关系
É 经常需要对问题作出假设,来保证统计性质
Ð
Ò 雄关漫道 ---- 机器学习的发展(续)
Ò 参考 2 T.G. Dietterich .Machine learning research: Four current directions. AI Magazine, 1997, 18(4): 97-136 .
Ò Thefour directions are
É (1)the improvement of classification accuracy by   learning ensembles of classifiers , 集成学习
É (2)methods for scaling up supervised learning   algorithms, 可扩展机器学习
É (3) reinforcement learning , 强化学习
É (4)the learning of complex stochastic models . 随机模型
Ò 数据挖掘
Ò 数据挖掘 是一个直接为实际应用而生的学科领域。
Ò 数据挖掘受到了很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大。
É 数据库 提供 数据管理技术 机器学习 统计学 提供 数据分析技术
É 从数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域。
Ò 数据分析? 机器学习的简单应用
Ò 区别:传统机器学习很多技术为处理中小规模数据设计。例如:传统决策树算法把所有数据读到内存中
É 数据挖掘界的改造利用: 引入高效的数据结构 数据调度策略 等来 改造决策树学习过程
É 海量数据对于算法设计带来巨大挑战
É
Ò 关联分析 ---- 数据挖掘学科的独特之处
É 少量数据时,直接使用统计学知识即可;困难在于海量数据。
Ò
Ò 会议期刊
Ò 机器学习 方面,最重要的学术会议是 NIPS ICML ECML COLT ,最重要的学术期刊是《 MachineLearning 》和《 Journalof Machine Learning Research 》;
Ò  
Ò 数据挖掘 方面,最重要的学术会议是 SIGKDD ICDM SDM PKDD PAKDD ,最重要的学术期刊是《 DataMining and Knowledge Discovery 》和《 IEEETransactions on Knowledge and Data Engineering 》。
Ò  
Ò 此外, 人工智能 领域的顶级会议如 IJCAI AAAI
Ò  
Ò 数据库 领域的顶级会议如 SIGMOD VLDB ICDE
Ò  
Ò 以及一些顶级期刊如《 ArtificialIntelligence 》、《 Journalof Artificial Intelligence Research 》、《 IEEETransactions on Pattern Analysis and Machine Intelligence 》、《 NeuralComputation 》等也经常发表机器学习和数据挖掘方面的论文。
Ò
Ò 一图了解数据挖掘算法
Ò
Ò 国际权威的学术组织 theIEEE International Conference on Data Mining (ICDM) 2006 12 月评选出了数据挖掘领域的十大经典算法:
Ò C4.5 (分类决策树算法) , k-Means 一个聚类算法,把 n 的对象根据他们的属性分为 k 个分割) , SVM (支持向量机,一种監督式學習的方法,它广泛的应用于统计分类以及回归分析中) , Apriori (一种最有影响的挖掘布尔关联规则频繁项集的算法) , EM (最大期望 (EM Expectation-Maximization) 算法是在概率 (probabilistic) 模型中寻找参数最大似然估计的算法) , PageRank Google 算法的重要内容, PageRank 根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。) , AdaBoost (一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器 ( 弱分类器 ) ,然后把这些弱分类器集合起来,构成一个更强的最终分类器 ( 强分类器 ) , kNN K 最近邻 (k-NearestNeighbor KNN) 分类算法) , Naive Bayes (朴素贝叶斯模型分类) CART Classification and Regression Trees 分类与回归树)
Ò
Ò 大数据分析的技术策略
Ò
Ò 机器学习 +
Ò

  高性能计算 +

  并行分布式高效存储

Ò
Ò 大数据领域十大巨头( CSDN 评)
Ò 开源大数据技术( CSDN 评)
Ò Apache Hbase : 大数据管理平台建立在谷歌强大的 BigTable 管理引擎基础上。作为具有开源、 Java 编码、分布式多个优势的数据库。
Ò ApacheStorm: 用于处理高速、大型数据流的分布式实时计算系统。
Ò ApacheSpark 采用内存计算,从多迭代批量处理出发,允许将数据载入内存做反复查询,此外还融合数据仓库、流处理和图计算等多种计算范式, Spark Scala 语言实现,构建在 HDFS 上,能与 Hadoop 很好的结合,而且运行速度比 MapReduce 100 倍。
Ò Apache Hadoop 成为了大数据管理标准之一。平台的灵活性使它可以运行在商用硬件系统,它还可以轻松地集成结构化、半结构化和甚至非结构化数据集。
Ò ApacheDrill 通过支持 HBase Cassandra MongoDB Drill 建立了交互式分析平台,允许大规模数据吞吐 ,而且能很快得出结果。
Ò 开源大数据技术(续)
Ò Apache Sqoop : 采用并发连接,可以将数据从关系数据库系统方便地转移到 Hadoop 中,可以自定义数据类型以及元数据传播的映射。
Ò Apache Giraph : 功能强大的图形处理平台,具有很好可扩展性和可用性。
Ò Cloudera Impala Impala 模型也可以部署在现有的 Hadoop 群集上,监视所有的查询。
Ò Gephi : 用来对信息进行关联和量化处理,通过为数据创建功能强大的可视化效果。还可以对复杂的 IT 连接、分布式系统中各个节点、数据流等信息进行可视化分析。
Ò MongoDB: MongoDB 是一个应用开源技术开发的 NoSQL 数据库,可以用于在 JSON 这样的平台上存储和处理数据。
Ò
Ò “大数据”的技术基石
Ò 众多环绕 数据库 的技术
Ò
Ò
Ò
Ò
Ò 对信息进行 关联 量化处理 展现 可视化效果
Ò 计算 图形处理
Ò 大数据开源框架之一 HADOOP/MAPREDUCEHBASE HIVE PIG ZOOKEEPER
Ò Hadoop Common: 0.20 及以前的版本中,包含 HDFS MapReduce 和其他项目公共内容,从 0.21 开始 HDFS MapReduce 被分离为独立的子项目,其余内容为 Hadoop Common
Ò HDFS : Hadoop 分布式文件系统 (DistributedFile System) HDFS ( Hadoop Distributed File System)
Ò MapReduce 并行计算 框架, 0.20 前使用 org.apache.hadoop.mapred 旧接口, 0.20 版本开始引入 org.apache.hadoop.mapreduce 的新 API
Ò HBase : 类似 Google BigTable 的分布式 NoSQL 列数据库。( HBase Avro 已经于 2010 5 月成为顶级 Apache 项目)
Ò Hive :数据仓库工具,由 Facebook 贡献。
Ò Zookeeper :分布式锁设施,提供类似 GoogleChubby 的功能,由 Facebook 贡献。
Ò Avro :新的数据序列化格式与传输工具,将逐步取代 Hadoop 原有的 IPC 机制。
Ò Pig: 大数据分析平台,为用户提供多种接口。
Ò Ambari [6] Hadoop 管理工具,可以快捷的监控、部署、管理集群。
Ò Sqoop :在 HADOOP 与传统的数据库间进行数据的传递。
Ò
Ò IBM 大数据平台产品
Ò 三种分析引擎:
É 流计算
É Hadoop 系统
É 数据仓库
Ò
Ò 可扩展,支持第三方分析数据存储
Ò
É
Ò IBM 大数据平台
Ò IBM 大数据平台
Ò Transwarp DH 星环科技产品
Ò 星环科技产品(续)
Ò Transwarp DH 星环科技产品(续)
Ò 大数据的研究方向
Ò 大数据研究
Ò 参考 3 Data Mining with Big Data Xindong Wu, Fellow, IEEE, Xingquan Zhu, Senior Member, IEEE,Gong -QingWu, and Wei Ding, Senior Member, IEEEIEEE TRANSACTIONS ON KNOWLEDGE AND DATAENGINEERING, VOL. 26, NO. 1, JANUARY 2014
Ò HACE Theorem: Big Data starts with large-volume,

  heterogeneous,autonomoussourceswith distributed and

  decentralized control, and seeks to explorecomplexand

  evolvingrelationships among data.

Ò DataMining with Big Data Xindong Wu,et al.
Ò DataMining with Big Data Xindong Wu,et al.   技术方案
Ò TierI : Big Data Mining Platform
Ò   parallelcomputing  ---- J.Shafer, R. Agrawal ,and M. Mehta, “SPRINT: A Scalable Parallel Classifier for Data Mining,” Proc.22nd VLDB Conf., 1996.[ 参考 4]
Ò D. Luo ,C. Ding, and H. Huang, “Parallelization with Multiplicative
Ò Algorithmsfor Big Data Mining,” Proc. IEEE 12th Int’l
Ò Conf.Data Mining, pp. 489-498, 2012.[ 参考 5]

     collective mining----R.Chen, K.Sivakumar,and H.Kargupta,“Collective Mining of Bayesian Networks from Distributed Heterogeneous Data”,Knowledge and Information Systems, vol. 6, no. 2, pp. 164-187, 2004 [参考6]

Ò DataMining with Big Data Xindong Wu,et al.   技术方案 ( )
Ò TierII : Big Data Semantics and Application Knowledge
Ò Informationsharing and data privacy----
É 1)restrict access to the data
É 2)  anonymize data fields---- Y. Lindell and B. Pinkas ,“Privacy Preserving Data Mining,”J .Cryptology, vol. 15, no. 3, pp. 177-206, 2002.[ 参考 7]
Ò Domainand Application Knowledge

I. Kopanas,N.Avouris,and S.Daskalaki,“The Role of Domain

Knowledgein a Large Scale Data Mining Project,” Proc. Second

HellenicConf. AI: Methods and Applications of Artificial Intelligence,

I.P.Vlahavas,C.D.Spyropoulos,eds., pp. 288-299, 2002.

Ò
Ò DataMining with Big Data Xindong Wu,et al.   技术方案 ( )
Ò TierIII : Big Data Mining Algorithms
Ò Locallearning and model fusion for multiple information sources---- theglobal mining can be featured with a two-step ( localmining and globalcorrelation ) process, at data, model, and atknowledge levels.
Ò Miningfrom sparse,uncertain,and incomplete data
Ò Mingcomplex and dynamic data: the value of Big Data is in its complexity
É Complexheterogeneous data types.
É Complexintrinsic semantic associations in data.
É Complexrelationship networks in data.
Ò DataMining with Big Data Xindong Wu,et al.   研究进展
Ò MapReduce parallel programming being applied to many machine learning and data miningalgorithms.
Ò Chu et al .To improve the efficiency of algorithms, Chu et al. proposed ageneral-purpose parallel programming method , which is applicable to a large number of machine learning algorithmsbased on the simple MapReduce programming model on multicore processors. Ten classical data mining algorithms are realized in the framework.
Ò Ranger et al .proposed a MapReduce -basedapplication programming interfacePhoenix , which supports parallel programming in the environment of multicore and multiprocessor systems, and realized three data mining algorithms includingk-Means, principal component analysis, and linear regression.
Ò DataMining with Big Data Xindong Wu,et al.   研究进展
Ò Papadimitriouand Sun proposed a distributed collaborativeaggregation ( DisCo )framework using practical distributed datapreprocessing and collaborative aggregation techniques.
Ò Daset al conducted a study of the integration of R (open sourcestatistical analysis software) and Hadoop . Thein-depth integration pushes data computation to parallel processing, whichenables powerful deep analysis capabilities for Hadoop .
Ò Wegeneret al . achieved the integration of Weka (an open-source machine learning and data mining software tool) and MapReduce .Standard Weka tools can only run on a single machine, with a limitation of 1-GB memory. Afteralgorithm parallelization, Weka breaks through the limitations and improves performance by taking the advantageof parallel computing to handle more than 100-GB data on MapReduce clusters.
Ò Ghoting et al.   proposed Hadoop -ML , onwhich developers can easily build task-parallel or data-parallel machinelearning and data mining algorithms on program blocks under the languageruntime environment.
Ò DataMining with Big Data Xindong Wu,et al.   研究进展
Ò Onconfidentiality protection in Big Data, Efficient and effective data accessmechanism
Ò Wanget al.   a privacy-preserving publicauditing mechanism for large scale data storage (such ascloud computing systems) has been proposed. The public key-based mechanism isused to enable third-party auditing (TPA), so users can safely allow a thirdparty to analyze their data without breaching the security settings orcompromising the data privacy.
Ò Onexcluding the third party(such as data miners) , privacy-preserving approachesor encryption mechanisms
Ò Lorch et al In their system, namely Shround , users’ data access patterns fromthe servers are hidden by using virtual disks.
Ò DataMining with Big Data Xindong Wu,et al.   研究进展
Ò expandedexisting data mining methods in many ways ( multisource,massive,dynamic Big Data)
É theefficiency improvement of single-source knowledge discovery methods ,
É Designinga data mining mechanism from a multisource perspective,
É dynamicdata mining methods ,
É analysisof stream data ,
É Wu et al .proposed and established thetheory of local pattern analysis ,which has laid a foundation for global knowledge discovery in multisource datamining.
Ò 机器学习与小娃娃学习
Ò References
Ò 参考 1 机器学习与数据挖掘 周志华 ,南京大学计算机软件新技术国家重点实验室
Ò 参考 2 T.G. Dietterich .Machine learning research: Four current directions. AI Magazine, 1997, 18(4): 97-136.
Ò 参考 3 Data Mining with Big Data Xindong Wu, Fellow, IEEE, Xingquan Zhu, Senior Member, IEEE,Gong -QingWu, and Wei Ding, Senior Member, IEEEIEEE TRANSACTIONS ON KNOWLEDGE AND DATAENGINEERING, VOL. 26, NO. 1, JANUARY 2014
Ò 参考 4: Agrawal ,and M. Mehta, “SPRINT: A Scalable Parallel Classifier for Data Mining,” Proc.22nd VLDB Conf., 1996.
Ò 参考 5: D. Luo ,C. Ding, and H. Huang, “Parallelization with Multiplicative Algorithms for BigData Mining,” Proc. IEEE 12th Int’l Conf. Data Mining, pp. 489-498, 2012
Ò 参考 6: R. Chen, K. Sivakumar ,and H. Kargupta ,“Collective Mining of Bayesian Networks from Distributed Heterogeneous Data”,Knowledge and Information Systems, vol. 6, no. 2, pp. 164-187, 2004
Ò 参考 7:Y. Lindell and B. Pinkas ,“Privacy Preserving Data Mining,”J .Cryptology, vol. 15, no. 3, pp. 177-206, 2002.
Ò
Ò
Ò
Ò
Ò

  谢谢大家!

Ò

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值