大数据第一天

最新推荐文章于 2023-04-14 21:49:50 发布

hl199612

最新推荐文章于 2023-04-14 21:49:50 发布

阅读量526

点赞数

1. 大数据，特点(5个v)

在信息技术中，“大数据”是指一些使用目前现有数据库管理工具或传统数据处理应用很难处理的大型而复杂的数据集。其挑战包括采集、管理、存储、搜索、共享、分析和可视化。

IBM提出了大数据”5V”特点：

一、Volume：数据量大，包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）。

二、Variety：种类和来源多样化。包括结构化、半结构化和非结构化数据，具体表现为网络日志、音频、视频、图片、地理位置信息等等，多类型的数据对数据的处理能力提出了更高的要求。

三、Value：数据价值密度相对较低，或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用，信息感知无处不在，信息海量，但价值密度较低，如何结合业务逻辑并通过强大的机器算法来挖掘数据价值，是大数据时代最需要解决的问题。

四、Velocity：数据增长速度快，处理速度也快，时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到，个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

五、Veracity：数据的准确性和可信赖度，即数据的质量。

2. 数据仓库 Datawarehouse使用主题存放

什么是数据仓库？

数据仓库就是面向主题的、集成的、稳定的、不同时间的数据集合，用以支持经营管理中的决策制定过程。目的是解决在信息技术(IT)发展中存在的拥有大量数据、然而有用信息贫乏(Data rich-Informationpoor)的问题。数据仓库就其本质仍然是基于关系数据库的，其与OLTP系统最大的不同是系统的目的的不同。主要的关系数据库代表为Oracle,Sybase,DB2,SQLServer,SybaseIQ,Terradat,MySQL等等。

数据仓库，是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的，它并不是所谓的“大型数据库”。数据仓库的方案建设的目的，是为前端查询和分析作为基础，由于有较大的冗余，所以需要的存储也较大。为了更好地为前端应用服务，数据仓库往往有如下几点特点：

1. 效率足够高

数据仓库的分析数据一般分为日、周、月、季、年等，可以看出，日为周期的数据要求的效率最高，要求24小时甚至12小时内，客户能看到昨天的数据分析。由于有的企业每日的数据量很大，设计不好的数据仓库经常会出问题，延迟1-3日才能给出数据，显然不行的。

2.数据质量

数据仓库所提供的各种信息，肯定要准确的数据，但由于数据仓库流程通常分为多个步骤，包括数据清洗，装载，查询，展现等等，复杂的架构会更多层次，那么由于数据源有脏数据或者代码不严谨，都可以导致数据失真，客户看到错误的信息就可能导致分析出错误的决策，造成损失，而不是效益。

3.扩展性

之所以有的大型数据仓库系统架构设计复杂，是因为考虑到了未来3-5年的扩展性，这样的话，未来不用太快花钱去重建数据仓库系统，就能很稳定运行。主要体现在数据建模的合理性，数据仓库方案中多出一些中间层，使海量数据流有足够的缓冲，不至于数据量大很多，就运行不起来了。

从上面的介绍中可以看出，数据仓库技术可以将企业多年积累的数据唤醒，不仅为企业管理好这些海量数据，而且挖掘数据潜在的价值，从而成为通信企业运营维护系统的亮点之一。正因为如此，

广义的说，基于数据仓库的决策支持系统由三个部件组成：数据仓库技术，联机分析处理技术和数据挖掘技术，其中数据仓库技术是系统的核心，在这个系列后面的文章里，将围绕数据仓库技术，介绍现代数据仓库的主要技术和数据处理的主要步骤，讨论在通信运营维护系统中如何使用这些技术为运营维护带来帮助。

4.面向主题

操作型数据库的数据组织面向事务处理任务，各个业务系统之间各自分离，而数据仓库中的数据是按照一定的主题域进行组织的。主题是与传统数据库的面向应用相对应的，是一个抽象概念，是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。每一个主题对应一个宏观的分析领域。数据仓库排除对于决策无用的数据，提供特定主题的简明视图。

数据仓库的特点
1、面向主题
2、集成性—企业数据框架
3、历史性、稳定性

当今的数据处理大致可以分成两大类：联机事务处理OLTP（on-line transaction processing）、联机分析处理OLAP（On-Line Analytical Processing）。OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果

操作-OLTP-事务-transaction

联机事务处理系统(OLTP)，也称为面向交易的处理系统，其基本特征是顾客的原始数据可以立即传送到计算中心进行处理，并在很短的时间内给出处理结果。也称为实时系统(Real timeSystem)。衡量联机事务处理系统的一个重要性能指标是系统性能，具体体现为实时响应时间。我们通常讲的业务系统都是基于OLTP的，主要的关系数据库代表为Oracle,Sybase,DB2,SQLServer,MySQL等等。

OLTP系统的主要特点
1、事务处理
2、面向应用
3、反映当前情况

分析-OLAP-历史

OLAP是使分析人员、管理人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映数据维特性的信息，进行快速、一致、交互地访问，从而获得对数据的更深入了解的一类软件技术。OLAP采用了新的数据处理引擎大大加强了对海量数据的聚合和访问要求，同时满足了不同层次数据的访问。主要的OLAP代表为SybaseIQ,MSOLAP,ESSbase等。
核心——维也称多维视图，数据立方(Data Cube)
目标——多维分析

OLAP的特点
1、灵活、动态
2、多角度、多层次的视角
3、快速

OLAP和OLTP的区别

	OLTP	OLAP
用户	操作人员,低层管理人员	决策人员,高级管理人员
功能	日常操作处理	分析决策
DB 设计	面向应用	面向主题
数据	当前的, 最新的细节的, 二维的分立的	历史的, 聚集的, 多维的集成的, 统一的
存取	读/写数十条记录	读上百万条记录
工作单位	简单的事务	复杂的查询
用户数	上千个	上百个
DB 大小	100MB-GB	100GB-TB

3. 了解分析ETL（Extract抽取，Tranform转换，Loader存储）挖掘DataMine（带有价值取向）两者区别

数据分析只是在已定的假设，先验约束上处理原有计算方法，统计方法，将数据分析转化为信息，而这些信息需要进一步的获得认知，转化为有效的预测和决策，这时就需要数据挖掘，也就是我们数据分析师系统成长之路的“更上一楼”。
数据挖掘与数据分析两者紧密相连，具有循环递归的关系，数据分析结果需要进一步进行数据挖掘才能指导决策，而数据挖掘进行价值评估的过程也需要调整先验约束而再次进行数据分析。
而两者的具体区别在于：
（其实数据分析的范围广，包含了数据挖掘，在这里区别主要是指统计分析）

· 数据量上：数据分析的数据量可能并不大，而数据挖掘的数据量极大。

· 约束上：数据分析是从一个假设出发，需要自行建立方程或模型来与假设吻合，而数据挖掘不需要假设，可以自动建立方程。

· 对象上：数据分析往往是针对数字化的数据，而数据挖掘能够采用不同类型的数据，比如声音，文本等。

· 结果上：数据分析对结果进行解释，呈现出有效信息，数据挖掘的结果不容易解释，对信息进行价值评估，着眼于预测未来，并提出决策性建议。

数据分析是把数据变成信息的工具，数据挖掘是把信息变成认知的工具，如果我们想要从数据中提取一定的规律（即认知）往往需要数据分析和数据挖掘结合使用。

举个例子说明：你揣着50元去菜市场买菜，对于琳琅满目的鸡鸭鱼猪肉以及各类蔬菜，想荤素搭配，你逐一询问价格，不断进行统计分析，能各自买到多少肉，多少菜，大概能吃多久，心里得出一组信息，这就是数据分析。而关系到你做出选择的时候就需要对这些信息进行价值评估，根据自己的偏好，营养价值，科学的搭配，用餐时间计划，最有性价比的组合等等，对这些信息进行价值化分析，最终确定一个购买方案，这就是数据挖掘。
数据分析与数据挖掘的结合最终才能落地，将数据的有用性发挥到极致。

关于数据挖掘，涉及的主要方法主要有：数据分析的方法、可视技术、关联法则、神经网络、决策树、遗传算法等。

4. hadoop平台是什么，特点

Hadoop是一个能够对大量数据进行分布式处理的软件框架。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。
Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。
Hadoop 还是可伸缩的，能够处理 PB 级数据。
此外，Hadoop 依赖于社区服务，因此它的成本比较低，任何人都可以使用。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：
高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。
Hadoop带有用Java语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。
hadoop大数据处理的意义
Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构，将大数据处理引擎尽可能的靠近存储，对例如像ETL这样的批处理操作相对合适，因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎，并将碎片任务(Map)发送到多个节点上，之后再以单个数据集的形式加载(Reduce)到数据仓库里。

hl199612

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据第一天

1. 大数据，特点(5个v) 在信息技术中，“大数据”是指一些使用目前现有数据库管理工具或传统数据处理应用很难处理的大型而复杂的数据集。其挑战包括采集、管理、存储、搜索、共享、分析和可视化。IBM提出了大数据”5V”特点：一、Volume：数据量大，包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）。二
复制链接

扫一扫