大数据学习笔记

原文链接
大数据分析,gartner定义:通过信息资源进行深度理解进而做出相应决策,此类信息具有huge-volume,fast-velocity和different variety的特性。通过数据分析,解锁隐藏模式,更全面的了解客户从而更好的了解他们的需求。

解决大数据存储和处理的技术包括Apache Hadoop、Apache Spark、Apache Kafka
Hadoop是一个开源框架,由java编写,可以在多个机器上同时进行并行处理,它使用集群架构,一个集群是一组通过局域网连接的系统。它包含3部分,一是Hadoop存储层HDFS(Hadoop Distributed File System)二是数据处理层Map-Reduce,三是资源管理层YARN。它的缺点是是不支持实时处理,只支持批处理,不能进行in-memory calculations.
Spark克服了Hadoop的缺点,可以实时处理和批处理,支持in-memory calculations,减少了从磁盘读写得次数, 这使得它比Hadoop速度快100倍。与Hadoop相比,它提供了更多的灵活性和多功能性,因为它可以使用不同的数据存储,如HDFS, OpenStack和Apache Cassandra。它还提供了大量的高级工具,包括用于结构化数据处理的Spark SQL、用于机器学习的MLlib、用于图形数据集处理的GraphX和Spark Streaming。它还包含80个高级操作符,用于高效的查询执行。
大数据应用案例
1反欺诈检测:如信用卡公司识别交易是不是欺诈,需要实时处理,并在短时间类针对个人历史记录进行分析,识别是否为正常交易,再做决策是接受或拒绝。为了处理数据流,我们需要像Apache Flink这样的流引擎。流引擎可以非常高效地使用实时数据流,并以低延迟(没有任何延迟)处理数据。
2 情感分析:如一个公司可以根据客户的相关推文进行情感分类,找到不满意的进行解决。通过Hadoop,可以挖掘社交媒体对话,获取关于自身和竞争对手的情绪数据,并利用它做出有针对性的、实时的决策,以增加市场份额。通过社交媒体快速分析客户情绪,公司可以立即做出决定和行动,他们不需要等待销售报告(这可能需要6个月或更早),以更好的方式经营他们的业务。
3 市场篮子分析关联规则确定了客户通常一起购买的产品和服务,授权组织向正确的客户提供和推广正确的产品。要实现这种复杂的用例,Apache Spark是最好的解决方案,它提供了通用框架来处理各种用例。市场篮子分析需要使用机器学习算法来开发。Apache Spark提供了MLlib,这是一个丰富的机器学习库。Spark运行迭代算法(机器学习执行本质上是迭代的)非常有效

其中Apache Flink案例主要关注实时分析,Spark案例关注复杂迭代机器学习算法的实现,Hadoop专注于高效地处理大量数据。

学习大数据需要的技能:编程语言如java,python和c++,Apache Hadoop,Apache Spark,Hive,机器学习,数据挖掘,数据可视化,SQL和NoSQL数据库,数据结构和算法
利用大数据的好处更好的决策、更大的创新、改善教育界、产品价格优化、推荐引擎

大数据可视化的商业智能(business intelligence 、BI)工具 Tableau、Qlik Sense 和Microsoft power BI

大数据VS数据科学
数据科学是对数据的研究。它是关于通过深入分析在数据中找到模式。数据科学的过程包括数据的提取、数据的转换、数据的分析和预测,以获得对数据的洞察。

大数据数据科学
处理大量数据分析数据
处理大量数据和形成深刻见解理解数据中的模式并做出决策
电子商务、安全服务、通信销售、图片识别、广告、风险分析
Hadoop,Spark,FlinkSAS,R,Python
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
目录 第一部分 Spark学习 ....................................................................................................................... 6 第1章 Spark介绍 ................................................................................................................... 7 1.1 Spark简介与发展 ...................................................................................................... 7 1.2 Spark特点 .................................................................................................................. 7 1.3 Spark与Hadoop集成 ................................................................................................ 7 1.4 Spark组件 .................................................................................................................. 8 第2章 Spark弹性分布数据集 ............................................................................................... 9 2.1 弹性分布式数据集 .................................................................................................... 9 2.2 MapReduce数据分享效率低..................................................................................... 9 2.3 MapReduce进行迭代操作 ........................................................................................ 9 2.4 MapReduce进行交互操作 ...................................................................................... 10 2.5 Spark RDD数据分享 ............................................................................................... 10 2.6 Spark RDD 迭代操作 .............................................................................................. 10 2.7 Spark RDD交互操作 ............................................................................................... 10 第3章 Spark安装 ................................................................................................................. 11 第4章 Spark CORE编程 ....................................................................................................... 13 4.1 Spark Shell ........................................................

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值