大数据初步调研

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/aleeustc/article/details/52597653
Ò大数据初步调研
Ò
Ò2014-4
Ò“大”数据的直观含义
Ò算法上:处理中小规模数据调入内存执行,在大数据(超大规模数据)不能直接运用了
Ò
Ò一个时代的大数据是下一个时代的小规模数据
Ò
Ò99年对“大”数据分析的技术策略对现在的大数据分析依然相同:

  机器学习+高性能计算+并行分布式高效存储

Ò机器学习与数据挖掘
Ò参考1机器学习与数据挖掘周志华,南京大学计算机软件新技术国家重点实验室
Ò机器学习:利用经验来改善计算机系统自身的性能。“经验”在计算机系统中主要是以数据的形式存在的。
Ò数据挖掘、知识发现:试图从海量数据中找出有用的知识。
Ò
Ò
Ò雄关漫道----机器学习(人工智能)的发展
Ò机器学习是人工智能发展到一定时期的产物。
Ò20世纪50年代到70年代——“推理期”:逻辑理论家程序,通用问题求解
Ò20世纪70年代中期开始——“知识期”:大量专家系统,但瓶颈是人总结知识教给机器困难。
É

  机器自己能够学习知识!

Ò雄关漫道----机器学习(人工智能)的发展(续)
Ò1950——图灵测试:提到机器学习的可能性
Ò20世纪50年代——主要集中在基于神经网络的连接主义学习:感知机,Adaline
Ò20世纪670年代——多种学习技术初步发展:以决策理论为基础的统计学习技术、强化学习技术(跳棋程序、学习机器,统计学习理论的重要结果),基于逻辑或图结构表示的符号学习技术(结构学习系统、基于逻辑的归纳学习系统、概念学习系统)。
Ò雄关漫道----机器学习的发展
Ò20世纪80年代——机器学习成为一个独立学科,各种技术百花齐放
Ò
Ò
Ò雄关漫道----机器学习的发展(续)
Ò从例子中学习,即广义的归纳学习,即从训练例中归纳出学习结果。
É涵盖了监督学习(例如分类回归)、非监督学习(例如聚类)等众多内容。
É20世纪90年代中期之前——
Ð归纳逻辑程序设计,是机器学习和逻辑程序设计的交叉,问题在学习过程所面临的假设空间太大,不适合大规模问题。
Ð基于神经网络的连接主义学习,著名的BP算法,缺陷是大量的经验参数。
Ð
Ð
Ò雄关漫道----机器学习的发展(续)
É20世纪90年代中期——统计学习
Ð支持向量、VC维、结构风险最小化原则
Ð有效的支持向量机算法
Ð支持向量机中的“核方法”被用到机器学习的每一个角落
Ð缺陷是核映射的选择依然依赖经验
É统计学习与连接主义学习一样是基于“属性-值”表现形式,难以有效表示复杂数据和数据关系
É经常需要对问题作出假设,来保证统计性质
Ð
Ò雄关漫道----机器学习的发展(续)
Ò参考2T.G.Dietterich.Machine learning research: Four current directions.AI Magazine, 1997, 18(4): 97-136.
ÒThefour directions are
É(1)the improvement of classification accuracy by  learning ensembles of classifiers,集成学习
É(2)methods forscaling up supervised learning   algorithms,可扩展机器学习
É(3)reinforcement learning,强化学习
É(4)the learning of complexstochastic models.随机模型
Ò数据挖掘
Ò数据挖掘是一个直接为实际应用而生的学科领域。
Ò数据挖掘受到了很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大。
É数据库提供数据管理技术机器学习统计学提供数据分析技术
É从数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域。
Ò数据分析?机器学习的简单应用
Ò区别:传统机器学习很多技术为处理中小规模数据设计。例如:传统决策树算法把所有数据读到内存中
É数据挖掘界的改造利用:引入高效的数据结构数据调度策略等来改造决策树学习过程
É海量数据对于算法设计带来巨大挑战
É
Ò关联分析----数据挖掘学科的独特之处
É少量数据时,直接使用统计学知识即可;困难在于海量数据。
Ò
Ò会议期刊
Ò机器学习方面,最重要的学术会议是NIPSICMLECMLCOLT,最重要的学术期刊是《MachineLearning》和《Journalof Machine Learning Research》;
Ò 
Ò数据挖掘方面,最重要的学术会议是SIGKDDICDMSDMPKDDPAKDD,最重要的学术期刊是《DataMining and Knowledge Discovery》和《IEEETransactions on Knowledge and Data Engineering》。
Ò 
Ò此外,人工智能领域的顶级会议如IJCAIAAAI
Ò 
Ò数据库领域的顶级会议如SIGMODVLDBICDE
Ò 
Ò以及一些顶级期刊如《ArtificialIntelligence》、《Journalof Artificial Intelligence Research》、《IEEETransactions on Pattern Analysis and Machine Intelligence》、《NeuralComputation》等也经常发表机器学习和数据挖掘方面的论文。
Ò
Ò一图了解数据挖掘算法
Ò
Ò国际权威的学术组织theIEEE International Conference on Data Mining (ICDM) 200612月评选出了数据挖掘领域的十大经典算法:
ÒC4.5(分类决策树算法),k-Means一个聚类算法,把n的对象根据他们的属性分为k个分割),SVM(支持向量机,一种監督式學習的方法,它广泛的应用于统计分类以及回归分析中),Apriori(一种最有影响的挖掘布尔关联规则频繁项集的算法),EM(最大期望(EMExpectation-Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法),PageRankGoogle算法的重要内容,PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。),AdaBoost(一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器),kNNK最近邻(k-NearestNeighborKNN)分类算法),NaiveBayes(朴素贝叶斯模型分类)CARTClassification and Regression Trees分类与回归树)
Ò
Ò大数据分析的技术策略
Ò
Ò机器学习+
Ò

  高性能计算 +

  并行分布式高效存储

Ò
Ò大数据领域十大巨头(CSDN评)
Ò开源大数据技术(CSDN评)
ÒApacheHbase:大数据管理平台建立在谷歌强大的BigTable管理引擎基础上。作为具有开源、Java编码、分布式多个优势的数据库。
ÒApacheStorm:用于处理高速、大型数据流的分布式实时计算系统。
ÒApacheSpark采用内存计算,从多迭代批量处理出发,允许将数据载入内存做反复查询,此外还融合数据仓库、流处理和图计算等多种计算范式,SparkScala语言实现,构建在HDFS上,能与Hadoop很好的结合,而且运行速度比MapReduce100倍。
ÒApacheHadoop成为了大数据管理标准之一。平台的灵活性使它可以运行在商用硬件系统,它还可以轻松地集成结构化、半结构化和甚至非结构化数据集。
ÒApacheDrill通过支持HBaseCassandraMongoDBDrill建立了交互式分析平台,允许大规模数据吞吐,而且能很快得出结果。
Ò开源大数据技术(续)
ÒApacheSqoop:采用并发连接,可以将数据从关系数据库系统方便地转移到Hadoop中,可以自定义数据类型以及元数据传播的映射。
ÒApacheGiraph:功能强大的图形处理平台,具有很好可扩展性和可用性。
ÒClouderaImpalaImpala模型也可以部署在现有的Hadoop群集上,监视所有的查询。
ÒGephi:用来对信息进行关联和量化处理,通过为数据创建功能强大的可视化效果。还可以对复杂的IT连接、分布式系统中各个节点、数据流等信息进行可视化分析。
ÒMongoDB:MongoDB是一个应用开源技术开发的NoSQL数据库,可以用于在JSON这样的平台上存储和处理数据。
Ò
Ò“大数据”的技术基石
Ò众多环绕数据库的技术
Ò
Ò
Ò
Ò
Ò对信息进行关联量化处理展现可视化效果
Ò计算图形处理
Ò大数据开源框架之一HADOOP/MAPREDUCEHBASE HIVE PIG ZOOKEEPER
ÒHadoopCommon:0.20及以前的版本中,包含HDFSMapReduce和其他项目公共内容,从0.21开始HDFSMapReduce被分离为独立的子项目,其余内容为HadoopCommon
ÒHDFS:Hadoop分布式文件系统(DistributedFile System) HDFS (HadoopDistributed File System)
ÒMapReduce并行计算框架,0.20前使用org.apache.hadoop.mapred旧接口,0.20版本开始引入org.apache.hadoop.mapreduce的新API
ÒHBase:类似GoogleBigTable的分布式NoSQL列数据库。(HBaseAvro已经于20105月成为顶级Apache项目)
ÒHive:数据仓库工具,由Facebook贡献。
ÒZookeeper:分布式锁设施,提供类似GoogleChubby的功能,由Facebook贡献。
ÒAvro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。
ÒPig:大数据分析平台,为用户提供多种接口。
ÒAmbari[6]Hadoop管理工具,可以快捷的监控、部署、管理集群。
ÒSqoop:在HADOOP与传统的数据库间进行数据的传递。
Ò
ÒIBM大数据平台产品
Ò三种分析引擎:
É流计算
ÉHadoop系统
É数据仓库
Ò
Ò可扩展,支持第三方分析数据存储
Ò
É
ÒIBM大数据平台
ÒIBM大数据平台
ÒTranswarpDH星环科技产品
Ò星环科技产品(续)
ÒTranswarpDH星环科技产品(续)
Ò大数据的研究方向
Ò大数据研究
Ò参考3Data Mining with Big DataXindongWu, Fellow, IEEE, XingquanZhu, Senior Member,IEEE,Gong-QingWu, and Wei Ding, Senior Member, IEEEIEEE TRANSACTIONS ON KNOWLEDGE AND DATAENGINEERING, VOL. 26, NO. 1, JANUARY 2014
ÒHACE Theorem:Big Data starts with large-volume,

  heterogeneous,autonomoussourceswith distributed and

  decentralized control, and seeks to explorecomplexand

  evolvingrelationships among data.

ÒDataMining with Big DataXindongWu,etal.
ÒDataMining with Big DataXindongWu,etal.   技术方案
ÒTierI : Big Data Mining Platform
Ò  parallelcomputing ----J.Shafer, R.Agrawal,and M. Mehta, “SPRINT: A Scalable Parallel Classifier for Data Mining,” Proc.22nd VLDB Conf., 1996.[参考4]
ÒD.Luo,C. Ding, and H. Huang, “Parallelization with Multiplicative
ÒAlgorithmsfor Big Data Mining,” Proc. IEEE 12th Int’l
ÒConf.Data Mining, pp. 489-498, 2012.[参考5]

     collective mining----R.Chen, K.Sivakumar,and H.Kargupta,“Collective Mining of Bayesian Networks from Distributed Heterogeneous Data”,Knowledge and Information Systems, vol. 6, no. 2, pp. 164-187, 2004 [参考6]

ÒDataMining with Big DataXindongWu,etal.   技术方案()
ÒTierII : Big Data Semantics and Application Knowledge
ÒInformationsharing and data privacy----
É1)restrict access to the data
É2)  anonymizedata fields----Y. Lindelland B.Pinkas,“Privacy Preserving DataMining,”J.Cryptology, vol. 15, no. 3, pp. 177-206, 2002.[参考7]
ÒDomainand Application Knowledge

I. Kopanas,N.Avouris,and S.Daskalaki,“The Role of Domain

Knowledgein a Large Scale Data Mining Project,” Proc. Second

HellenicConf. AI: Methods and Applications of Artificial Intelligence,

I.P.Vlahavas,C.D.Spyropoulos,eds., pp. 288-299, 2002.

Ò
ÒDataMining with Big DataXindongWu,etal.   技术方案()
ÒTierIII : Big Data Mining Algorithms
ÒLocallearning and model fusion for multiple information sources----theglobal mining can be featured with a two-step (localminingand globalcorrelation) process, at data, model, and atknowledge levels.
ÒMiningfrom sparse,uncertain,andincomplete data
ÒMingcomplex and dynamic data: the value of Big Data is in its complexity
ÉComplexheterogeneous data types.
ÉComplexintrinsic semantic associations in data.
ÉComplexrelationship networks in data.
ÒDataMining with Big DataXindongWu,etal.   研究进展
ÒMapReduceparallel programming being applied to many machine learning and data miningalgorithms.
ÒChu et al.To improve the efficiency of algorithms, Chu et al. proposedageneral-purpose parallel programming method,which is applicable to a large number of machine learningalgorithmsbasedon the simpleMapReduceprogramming model onmulticoreprocessors. Ten classical data mining algorithms are realized in the framework.
ÒRanger et al.proposedaMapReduce-basedapplication programming interfacePhoenix,which supports parallel programming in the environment ofmulticoreand multiprocessor systems, and realized three data mining algorithms includingk-Means, principal component analysis, and linear regression.
ÒDataMining with Big DataXindongWu,etal.   研究进展
ÒPapadimitriouand Sunproposed a distributed collaborativeaggregation (DisCo)frameworkusing practical distributed datapreprocessing and collaborative aggregation techniques.
ÒDaset alconducted a study ofthe integration of R (open sourcestatistical analysis software) andHadoop. Thein-depth integration pushes data computation to parallel processing, whichenables powerful deep analysis capabilities forHadoop.
ÒWegeneret al. achievedthe integration of Weka(an open-source machine learning and data mining software tool) andMapReduce.StandardWekatools can only run on a single machine, with a limitation of 1-GB memory. Afteralgorithm parallelization,Wekabreaks through the limitations and improves performance by taking the advantageof parallel computing to handle more than 100-GB data onMapReduceclusters.
ÒGhoting et al. proposed Hadoop-ML,onwhich developers can easily build task-parallel or data-parallel machinelearning and data mining algorithms on program blocks under the languageruntime environment.
ÒDataMining with Big DataXindongWu,etal.   研究进展
ÒOnconfidentiality protection in Big Data, Efficient and effective data accessmechanism
ÒWanget al. a privacy-preserving publicauditing mechanismfor large scale data storage (such ascloud computing systems) has been proposed. The public key-based mechanism isused to enable third-party auditing (TPA), so users can safely allow a thirdparty to analyze their data without breaching the security settings orcompromising the data privacy.
ÒOnexcluding the third party(such as data miners) , privacy-preserving approachesor encryption mechanisms
ÒLorch et alIn their system, namely Shround,users’ data access patternsfromthe servers are hidden by using virtual disks.
ÒDataMining with Big DataXindongWu,etal.   研究进展
Òexpandedexisting data mining methods in many ways (multisource,massive,dynamicBig Data)
Étheefficiency improvement of single-source knowledge discovery methods ,
ÉDesigninga data mining mechanism from a multisource perspective,
Édynamicdata mining methods ,
Éanalysisof stream data ,
ÉWu et al.proposed and establishedthetheory of local pattern analysis,which has laid a foundation for global knowledge discovery in multisource datamining.
Ò机器学习与小娃娃学习
ÒReferences
Ò参考1机器学习与数据挖掘周志华,南京大学计算机软件新技术国家重点实验室
Ò参考2T.G.Dietterich.Machine learning research: Four current directions.AI Magazine, 1997, 18(4): 97-136.
Ò参考3Data Mining with Big DataXindongWu, Fellow, IEEE, XingquanZhu, Senior Member,IEEE,Gong-QingWu, and Wei Ding, Senior Member, IEEEIEEE TRANSACTIONS ON KNOWLEDGE AND DATAENGINEERING, VOL. 26, NO. 1, JANUARY 2014
Ò参考4:Agrawal,and M. Mehta, “SPRINT: A Scalable Parallel Classifier for Data Mining,” Proc.22nd VLDB Conf., 1996.
Ò参考5: D.Luo,C. Ding, and H. Huang, “Parallelization with Multiplicative Algorithms for BigData Mining,” Proc. IEEE 12th Int’l Conf. Data Mining, pp. 489-498, 2012
Ò参考6: R. Chen, K.Sivakumar,and H.Kargupta,“Collective Mining of Bayesian Networks from Distributed Heterogeneous Data”,Knowledge and Information Systems, vol. 6, no. 2, pp. 164-187, 2004
Ò参考7:Y.Lindelland B.Pinkas,“Privacy Preserving DataMining,”J.Cryptology, vol. 15, no. 3, pp. 177-206, 2002.
Ò
Ò
Ò
Ò
Ò

  谢谢大家!

Ò

阅读更多
博主设置当前文章不允许评论。

博主推荐

换一批

没有更多推荐了,返回首页