20160818初始大数据（整理）

最新推荐文章于 2024-09-18 18:11:13 发布

Anald

最新推荐文章于 2024-09-18 18:11:13 发布

阅读量1.5k

点赞数

文章标签：大数据

目前大数据已经深入到我们的日常生活，这个词也被越来越多的人所熟知，整理网上找到的资料，做个简单总结。
由于仓促没有记录文章出处，在此说明，只用于笔记总结。

1.目前涉及到java方向的主流的大数据技术：
   Hadoop
   Cloud Computing

2.业界（IBM 最早定义）将大数据的特征归纳为4个“V”（量Volume，多样Variety，价值Value，速Velocity）
   或者说特点有四个层面：
       第一，数据体量巨大。
           大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）；
       第二，数据类型繁多。比如，网络日志、视频、图片、地理位置信息等等。
       第三，价值密度低，商业价值高。
       第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。

想要系统的认知大数据，必须要全面而细致的分解它，我着手从三个层面来展开：
　　第一层面是理论，理论是认知的必经途径，也是被广泛认同和传播的基线。
       我会从大数据的特征定义理解行业对大数据的整体描绘和定性；
       从对大数据价值的探讨来深入解析大数据的珍贵所在；
       从对大数据的现在和未来去洞悉大数据的发展趋势；
       从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

　　第二层面是技术，技术是大数据价值体现的手段和前进的基石。
       云计算、
       分布式处理技术、
       存储技术
       感知技术的发展来
   说明大数据从采集、处理、存储到形成结果的整个过程。

　　第三层面是实践，实践是大数据的最终价值体现。
       我将分别从
           互联网的大数据，
           政府的大数据，
           企业的大数据
           个人的大数据
       四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

维克托·迈尔-舍恩伯格认为
   1-需要全部数据样本而不是抽样；
   2-关注效率而不是精确度；
   3-关注相关性而不是因果关系。

维克托·迈尔-舍恩伯格提过的一个很有指导意义的观点：
   通过找出一个关联物并监控它，就可以预测未来。

大数据需要关联交互的技术有：
   虚拟化技术
   分布式处理技术
   海量数据的存储
   管理技术
   NoSQL
   实时流数据处理
   智能分析技术（类似模式识别以及自然语言理解）等。

Hadoop用到的一些技术有：
　　HDFS: Hadoop分布式文件系统(Distributed File System) － HDFS (HadoopDistributed File System)
　　MapReduce：并行计算框架
　　HBase: 类似Google BigTable的分布式NoSQL列数据库。
　　Hive：数据仓库工具，由Facebook贡献。
　　Zookeeper：分布式锁设施，提供类似Google Chubby的功能，由Facebook贡献。
　　Avro：新的数据序列化格式与传输工具，将逐步取代Hadoop原有的IPC机制。
　　Pig:大数据分析平台，为用户提供多种接口。
　　Ambari：Hadoop管理工具，可以快捷的监控、部署、管理集群。
　　Sqoop：用于在Hadoop与传统的数据库间进行数据的传递。

大数据工程师的工作方式主要有两种方式：
   由市场驱动和有数据分析部门驱动
   市场驱动
       前者需要常常问产品经理了解开发需求
   数据分析部门驱动
       需要找运营部了解数据模型实际转化情况

大数据工程师需要做：
   1.定位并抽取信息的所在数据集
   2.变成直接可以判断的信息
   3.数据可视化

数据处理分析进阶的知识有以下：
   数学
   统计学
   计算机编码

3D数据管理：控制数据流量、流速和品种。
注：”大数据这个词并没有出现在报告中，但十年后，数量，速度和品种的“3VS”属性成了被用来定义大数据最常用的三种属性。

Z-Suite说明
Z-Suite具有高性能的大数据分析能力，她完全摒弃了向上升级(Scale-Up)，全面支持横向扩展(Scale-Out)。Z-Suite主要通过以下核心技术来支撑PB级的大数据：

跨粒度计算(In-DatabaseComputing)
Z-Suite支持各种常见的汇总，还支持几乎全部的专业统计函数。得益于跨粒度计算技术，Z-Suite数据分析引擎将找寻出最优化的计算方案，继而把所有开销较大的、昂贵的计算都移动到数据存储的地方直接计算，我们称之为库内计算(In-Database)。这一技术大大减少了数据移动，降低了通讯负担，保证了高性能数据分析。

并行计算(MPP Computing)
Z-Suite是基于MPP架构的商业智能平台，她能够把计算分布到多个计算节点，再在指定节点将计算结果汇总输出。Z-Suite能够充分利用各种计算和存储资源，不管是服务器还是普通的PC，她对网络条件也没有严苛的要求。作为横向扩展的大数据平台，Z-Suite能够充分发挥各个节点的计算能力，轻松实现针对TB/PB级数据分析的秒级响应。

列存储 (Column-Based)
Z-Suite是列存储的。基于列存储的数据集市，不读取无关数据，能降低读写开销，同时提高I/O 的效率，从而大大提高查询性能。另外，列存储能够更好地压缩数据，一般压缩比在5 -10倍之间，这样一来，数据占有空间降低到传统存储的1/5到1/10 。良好的数据压缩技术，节省了存储设备和内存的开销，却大大了提升计算性能。

内存计算
得益于列存储技术和并行计算技术，Z-Suite能够大大压缩数据，并同时利用多个节点的计算能力和内存容量。一般地，内存访问速度比磁盘访问速度要快几百倍甚至上千倍。通过内存计算，CPU直接从内存而非磁盘上读取数据并对数据进行计算。内存计算是对传统数据处理方式的一种加速，是实现大数据分析的关键应用技术。

　数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据，是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型，开发数据质量技术。

大数据采集一般分为大数据智能感知层：主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统，实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。
必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。
基础支撑层：提供大数据服务平台所需的虚拟服务器，结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。
重点攻克分布式虚拟存储技术，大数据获取、存储、组织、分析和决策操作的可视化接口技术，大数据的网络传输与压缩技术，大数据隐私保护技术等。

二、大数据预处理技术
　　主要完成对已接收数据的辨析、抽取、清洗等操作。
       1)抽取：因获取的数据可能具有多种结构和类型，数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型，以达到快速分析处理的目的。
       2)清洗：对于大数据，并不全是有价值的，有些数据并不是我们所关心的内容，而另一些数据则是完全错误的干扰项，因此要对数据通过过滤“去噪”从而提取出有效数据。

三、大数据存储及管理技术
　　大数据存储与管理要用存储器把采集到的数据存储起来，建立相应的数据库，并进行管理和调用。
       重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。
       主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。
       开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;
       突破分布式非关系型大数据管理与处理技术，异构数据的数据融合技术，数据组织技术，研究大数据建模技术;
       突破大数据索引技术;
       突破大数据移动、备份、复制等技术;
       开发大数据可视化技术。

　　开发新型数据库技术，数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中，非关系型数据库主要指的是NoSQL数据库，
   分为：键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。

　　开发大数据安全技术。改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。

四、大数据分析及挖掘技术
　　大数据分析技术。改进已有数据挖掘和机器学习技术;
   开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;
   突破基于对象的数据连接、相似性连接等大数据融合技术;
   突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

　　数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
   数据挖掘涉及的技术方法很多，有多种分类法。
   根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;
   根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;
   根据挖掘方法分，可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。
   机器学习中，可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。
   统计方法中，可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。
   神经网络方法中，可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。
   数据库方法主要是多维数据分析或OLAP方法，另外还有面向属性的归纳方法。

从挖掘任务和挖掘方法的角度，着重突破：
    1.可视化分析。数据可视化无论对于普通用户或是数据分析专家，都是最基本的功能。数据图像化可以让数据自己说话，让用户直观的感受到结果。

    2.数据挖掘算法。图像化是将机器语言翻译给人看，而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据，挖掘价值。
   这些算法一定要能够应付大数据的量，同时还具有很高的处理速度。

    3.预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。

    4.语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。

    5.数据质量和数据管理。数据质量与管理是管理的最佳实践，透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。


六、大数据展现与应用技术
　　大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来，为人类的社会经济活动提供依据，从而提高各个领域的运行效率，大大提高整个社会经济的集约化程度。
    在我国，大数据将重点应用于以下三大领域：商业智能、政府决策、公共服务。
   例如：商业智能技术，政府决策技术，电信数据信息处理与挖掘技术，电网数据信息处理与挖掘技术，气象信息分析技术，环境监测技术，警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统)，大规模基因序列分析比对技术，Web信息挖掘技术，多媒体数据并行化处理技术，影视制作渲染技术，其他各种行业的云计算和海量数据处理应用技术等。

七、知识图谱简单了解
正如Google的辛格博士在介绍知识图谱时提到的：“The world is not made of strings , but is made of things.”，
   知识图谱旨在描述真实世界中存在的各种实体或概念。其中，每个实体或概念用一个全局唯一确定的ID来标识，称为它们的标识符(identifier)。
   每个属性-值对(attribute-value pair，又称AVP)用来刻画实体的内在特性，而关系(relation)用来连接两个实体，刻画它们之间的关联。
   知识图谱亦可被看作是一张巨大的图，图中的节点表示实体或概念，而图中的边则由属性或关系构成。

   上述图模型可用W3C提出的资源描述框架RDF[2] 或属性图(property graph)[3] 来表示。知识图谱率先由Google提出，以提高其搜索的质量。

   为了更好地理解知识图谱，我们先来看一下其在搜索中的展现形式，即知识卡片(又称Knowledge Card)。
   知识卡片旨在为用户提供更多与搜索内容相关的信息。更具体地说，知识卡片为用户查询中所包含的实体或返回的答案提供详细的结构化摘要。
   从某种意义来说，它是特定于查询(query specific)的知识图谱。例如，当在搜索引擎中输入“姚明”作为关键词时，我们发现搜索结果页面的右侧原先用于置放广告的地方被知识卡片所取代。广告被移至左上角，而广告下面则显示的是传统的搜索结果，即匹配关键词的文档列表。
   这个布局上的微调也预示着各大搜索引擎在提高用户体验和直接返回答案方面的决心。

   为了提高搜索质量，特别是提供如对话搜索和复杂问答等新的搜索体验，我们不仅要求知识图谱包含大量高质量的常识性知识，
   还要能及时发现并添加新的知识。
   在这种背景下，知识图谱通过收集来自百科类站点和各种垂直站点的结构化数据来覆盖大部分常识性知识。
   这些数据普遍质量较高，更新比较慢。
   而另一方面，知识图谱通过从各种半结构化数据(形如HTML表格)抽取相关实体的属性-值对来丰富实体的描述。
   此外，通过搜索日志(query log)发现新的实体或新的实体属性从而不断扩展知识图谱的覆盖率。
   相比高质量的常识性知识，通过数据挖掘抽取得到的知识数据更大，更能反映当前用户的查询需求并能及时发现最新的实体或事实，但其质量相对较差，存在一定的错误。
   这些知识利用互联网的冗余性在后续的挖掘中通过投票或其他聚合算法来评估其置信度，并通过人工审核加入到知识图谱中。

FineBI 简单了解