数据开发(数据来源)

本文探讨了大数据的来源,包括业务系统、web端页面、外部系统、内部数据库和人工整理,强调了不同来源的数据特性,并提及了结构化、非结构化和半结构化数据的概念。
摘要由CSDN通过智能技术生成

前言:早在1980年,著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。2008年9月《自然》杂志推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

数据来源

1.业务系统 

基于公司的业务系统获取相对的数据,例如大数据下硬件信息数据磁盘,网络,节点存活,带宽等信息。业务系统一般是企业的重要的数据来源,业务系统的数据一般都是格式化以及高质量的。

 2.web端页面

基于特定的获取方式指定的网址下结构非结构数据。web系统也会存储各种样式的数据,行为日志,图片,视屏的数据结构并非很格式化。

3.外部系统

获取指定软件的日志数据。类似爬虫获取的公开的数据能够对内部数据做补充,为指标等做数据的铺垫。

4.内部数据库

公司多年积累的客户数据或者订单数据等。

5.人工整理

手动整理的数据。

数据分类

 结构化数据:结构化的数据非常规范带有字段以及对应格式的数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值