第二章大数据感知与获取

最新推荐文章于 2024-08-10 10:13:37 发布

fenfyue

最新推荐文章于 2024-08-10 10:13:37 发布

阅读量3k

点赞数 1

分类专栏：大数据导论

本文链接：https://blog.csdn.net/fenfyue/article/details/113182828

版权

大数据导论专栏收录该内容

5 篇文章

订阅专栏

在这里插入图片描述

2.1引言

数据代表着对事物的描述，对数据的记录能力是原式社会与先进社会的一个重要分界标志。

数据被认为是信息时代的基础生活资料与市场要素，重要程度不亚于物质资产和人力资本。

大数据的产生是计算机和网络通信技术发展的必然结果。

2.2数据渠道

2.2.1数据分布

作为大数据分析师被问到的问题常有一下几种
（1）我有这些数据，你能帮我做些什么？
往往是有一定数据基础的甲方提问
（2）我想做这些事，需要哪些数据？
有一定IT建设基础的甲方出于目标产品定位而进行可行性研究时在数据层的慎思。
（3）有了这些数据，还能做什么？
尝试发掘更多有价值的信息

对于一个计划进行大数据项目，数据源来自于本单位自营（数据主权属本单位）和外单位他营。

本单位自营：自营系统（平台）本单位自营，理论上数据可以最大限度的共享。
历史遗留数据：纸质文档或者存放在历史数据库中的数据

外单位他营：其他利益主体运营平台
物联网数据
政府数据
互联网/移动互联网数据

从互联网上采集数据通常的方式是爬虫。
其他数据（本单位自营系统、政府数据等）本质上都是直接在数据库层面或者软件应用层面进行的数据交换

数据的分布分为内部数据和互联网数据
数据的富集与整合是通过网络爬虫自动从URL中获取数据。

2.2.2内部数据

不同的利益主体出自自身职能定位和利益诉而建立的IT系统完成任务目标的过程中，存储下有关物理世界实体对象的各类数据、
1.政府数据
政府出于社会管理目的而下设的各种不猛，公检法、财务部、发改委等。产生的数据以特定的结构存储在相应的数据中心。
2.各利益主体自营爱国银行业
出于不同的利益需求，会构建不同的IT系统。
3.物联网数据

2.2.3互联网数据

通过不同的互联网应用产品而沉淀在互联网中的各类数据，其实这些数据都是存放在不同利益主体的服务器中，互联网开放和共享是的普通人都可以访问，
如：政府部门出于信息公开的目的公开的公告、信息。电商网站出于其营销目的展示的产品。
互联网数据中沉淀着大量反映用户偏好倾向、事件趋势等相关信息。

2.2.4 应用提示

数据富集整合是大数据项目的基础
（1）本单位自营数据往往相对容易富集和整合
（2）外单位他营数据的采集往往需要一定的商务支撑
（3）从什么网站及URL获取数据
（4）数据集成（应用）过程中，需要根据不同的分析目标运用不同的策略应对
（5）数据的质量是大数据项目建设的重要基础

2.3内部数据获取方法

2.3.1 目标任务

对于一个企业来说，企业数据不仅包括本企业自己生产的数据也有其他企业合作时可以获得的数据。
内部数据资源整合的优势：
（1）构建数据驱动应用，推进拓展价值实现
（2）统一数据规范标准，推动数据共享开放
（3）重视数据安全管理，完善数据安全保障
（4）推进数据融合管理，增加数据语义厚度

2.3.2 ETL

能否对数据进行有效的整合将成为是否能够对内部数据进行有效利用的关键。
Extract(抽取） Transform(转换） Load(装载）
ETL的目的：整合企业中的分散、凌乱、标准不统一的数据。

1.数据抽取（Extract）
从数据源中抽取，从数据源中抽取，从数据库中抽取一般分为两种方式
（1）全量抽取：全部抽取转换成ETL工具可以识别的格式，不常用。
（2）增量抽取：只抽取上次抽取以来数据库中新增或修改的数据。常用的捕获变化数据的方法：
<1> 日志对比：分析数据库自身的日志判断变化的数据
<2>时间戳：通过增加一个时间戳字段，在更新修改表数据的时候，同时修改时间戳字段的值。
<3>触发器：建立增、删、改三个触发器，原表数据变化时，就通过相应的触发器将变化的数据写入一个临时表中。
<4>全表比对：采用MD5校验码（验证是否一致）

2.数据转换和加工（Transform）
格式、数据不完整等问题需要进行加工处理。一般有两种方式：
（1）ETL引擎中的数据转换和加工
一般以组件化的方式进行，常用的数据转换组件有字段映射、数据过滤、数据清洗、数据替换等。
（2）在数据库中进行数据加工
通过SQL指令、函数来支持加工，如使用WHERE语句过滤，有些不能用SQL处理处理的则使用ETL引擎进行处理

3.数据加载
加载数据的最佳方式取决于执行操作的类型及装入多少数据，当目的库是关系型数据库时，一般有两种方式：
（1）直接使用SQL语句进行更新、插入、删除等操作
（2）采用批量装载的方式，如bcp、bulk或API

2.3.3采用ETL工具

（1）DataStage
（2）Information
（3）kettle

2.3.4 应用提示

（1）在系统初始上线前，将既有的数据导入新系统中
（2）往往会存在历史文档中的数据也要纳入数据导入范围
（3）传统意义上，ETL的流程是先抽取、转换、加载。在大数据场景下，出于对效率的考虑一般将顺序转换为ELT
（4）API接口方式适合于本单位与外单位进行数据交换的场合。
（5）系统设计者都应该有意识地设计与实现面向第三方数据访问的API接口方式，允许获得当前系统的数据