重头开始,大数据的学习了解

首先得明白什么是大数据?

首先来讲讲这些天对于大数据的了解与看法:大数据的起始要从第一次信息化浪潮1980年的前后说起,那时候个人计算机开始普及,以解决信息处理问题的探讨慢慢萌生,再到第二次信息化浪潮1995年前后,以互联网的普及为标志,为解决信息传输问题大数据的产生趋于成熟,直到第三次信息化浪潮2010年前后,以大数据+云计算+物联网为标志,为解决信息爆炸问题应运而生(大规模应用)。
而这一切的产生归功于技术的革新支持(存储+计算+网络,存储设备容量不断增加,CPU处理能力大幅提升,网络带宽不断增加)

大数据特征

大数据特征:数据来源广、数据格式多样化(结构化数据、非结构化数据、Excel文件、文本文件等)、数据量大(最少也是TB级别的、甚至可能是PB级别)、数据增长速度快等。

大数据的影响

4V(营销理论):1.大量化,数据量增长大。2.多样化,大数据是由结构化和非结构化数据、组成数据类型繁多。3.快速化,秒级决策。4.价值密度低,商业价值高

大数据四种研究范式:实验->理论->计算->数据

思维方式:1.全样而非抽样。2.效率而非精确。3.相关而非因果。

大数据的应用

1、电商领域:相信大数据在电商领域的应用,大家已经屡见不鲜了,淘宝京东等电商平台利用大数据技术,对用户信息进行分析,从而为用户推送用户感兴趣的产品,从而刺激消费。

2、政府领域:“智慧城市”已经在多地尝试运营,通过大数据,政府部门得以感知社会的发展变化需求,从而更加科学化、精准化、合理化的为市民提供相应的公共服务以及资源配置。

3、医疗领域:医疗行业通过临床数据对比、实时统计分析、远程病人数据分析、就诊行为分析等,辅助一声进行临床决策,规范诊疗路径,提高一声的工作效率。

4、传媒领域:传媒相关企业通过收集各式各样的信息,进行分类筛选、清洗、深度加工,实现对读者和受众葛新华需求的准确定位和把握,并追踪用户的浏览习惯,不断进行信息优化。

5、安防领域:安防行业可实现视频图像模糊查询、快速检索、精准定位,并能够进一步挖掘海量视频监控数据背后的价值信息,反馈内涵知识辅助决策判断。

6、金融领域:用户画像的基础上,银行可以根据用户的年龄、资产规模、理财偏好等,对用户群进行精准定位,分析出潜在的金融服务需求。

7、电信领域:电信行业拥有庞大的数据,大数据技术可以应用于网络管理、客户关系管理、企业运营管理等,并且使数据对外商业化,实现单独盈利。

8、教育领域:通过大数据进行学习分析,能够为每位学生创设一个量身定做的个性化课程,为学生的多年学习提供一个富有挑战性而非逐渐厌倦的学习计划。

9、交通领域:大数据技术可以预测未来交通情况,为改善交通状况提供优化方案,有助于交通部门提高对道路交通的把控能力,防止和缓解交通拥堵,提供更加人性化的服务

大数据的关键技术

大数据技术的层次:数据采集、数据存储与管理、数据处理与分析、数据隐私与安全
两大核心问题:1. 分布式存储,解决海量数据的存储问题。2.分布式处理,解决海量数据的处理问题
不同的计算模式需要使用不同的产品:批处理计算(典型计算模式)、流计算、图计算、查询分析计算

大数据与云计算与物联网

三者数据循环式的联系
循环式关系

云计算

(解决)两大核心问题: 分布式存储、分布式处理
云计算典型特征:虚拟化、多组户
云计算的概念:云计算是通过网络以服务的方式为用户提供非常廉价的IT资源
云计算的优势:企业不需要自建IT基础设施,可以租用云端资源
云计算的三种模式:公有云(构建好一个云服务,面向公众,eg:百度云、微云)、混合云(部分给自己,部分给外面)、私有云(面向企业内部,eg:移动、电信)
三种云服务:1. IaaS:面向网络架构师、基础设施即服务,将基础设施(计算资源和存储)作为服务出租。2. PaaS:面向应用开发者、平台即服务,搭建云计算环境开发平台,产品在平台上开发、部署、卖出。 3. SaaS:面向用户 eg:云财务软件
云计算关键技术: 虚拟化、分布式存储、分布式计算、多租户(云计算同时为多个用户服务)
云计算数据中心: 各种数据和应用,都存储在数据中心, 数据中心包含大量刀片服务器,全球各地大量建设数据中心, 数据中心应该修建在哪里?:1.冷、凉爽–>数据中心能耗非常大。2.电力资源丰富。3. 地质结构稳定的地方

物联网

物联网概念(IoT:The Internet of Things):物联网就是物物相连的互联网,是互联网的延伸
物联网层次架构
物联网层次架构

物联网关键技术:识别技术、 感知技术、 RFID芯片(线圈刷卡,电磁感应)
物联网的应用: 智能XX…、智慧城市

大数据

解决方案:

该如何采集汇总——Sqoop,Cammel,Datax
该如何存储——GFS,HDFS,TFS等
应对数据增长——水平扩展
转化成一致的格式——MapReduce
将SQL转化为MapReduce的解析引擎——Hive,Pig
解决时间延迟问题——Storm/JStorm低时延的流式计算框架
批处理:Hadoop集群(包括HDFS+MapReduce+Yarn)
流处理:Storm集群
同时解决批处理+流处理——Spark一站式的计算框架
业务处理通用架构——Lambda架构,Kappa架构

辅助工具:

定时任务调度工具——Ozzie,azkaban
图形化任务执行管理,结果查看工具——Hue,Zepplin
编写Spark程序的最佳语言——Scala
编写脚本——Python
数据预处理,加快运算——Allluxio,Kylin

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值