大数据启蒙

学习技术的方式

现在技术的多样性远远超出了我们可支配的学习时间,对于纷杂的技术手段,我们要搞清它的本质,不能因为技术而技术。技术来源于生活,解决的是对应的问题,搞清一项技术有三个要点:What?Why?How?,这样学习就能触类旁通,事半功倍。榨干每一台单机的性能,

分治思想

  1. 需求 :我有一万个元素(比如数字和单词)需要存储,如果要查找某一个元素,最简单的遍历方式复杂度是多少?如果我的期望是)O(4)呢?
  2. 回答:用哈希表存储数据,每个数组小标对应的位置存放四个元素,求哈希值判断所找元素所在的位置,时间复杂都为O(1),然后再在四个数中查找,时间复杂度为O(4)
  3. 分而治之的思想很重要,出现在了很多地方:Redis集群、ElasticSearch、Hbase、Hadoop生态无处不在

单机处理大数据问题(瓶颈在IO)

  1. 需求 :有一个非常大的文本文件,里面有很多很多的行,只有两行一样;他们出现在随机的位置,需要找到他们。单机:可用的内存很少,也就几十兆。
    假设IO的速度是500MB每秒,1T文件读取一遍需要30分钟,循环遍历需要N次IO时间,分治思想可以使时间变为两次IO。提示:时间单位有s,ms,us,ns之间相差1000个数量级;存储单位B,KB,MB,GB,TB,之间相差1000个数量级
    思考:如果让时间变为分钟、秒级别
  2. 回答
    (1)单机。如果每一个都要与所有的文件进行对比,每次加载所有内容需要将近30秒的时间,如果有n行,那么时间复杂度就是n乘以30分钟。用哈希表存数据可以将总的时间复杂度降低到分钟级别,也就是说在第一次加载数据时每一行求哈希值将整个1T文件散列成2000个小文件,相同的行一定去到相同的小文件里,耗时30分钟;这时的小文件可以一口气放到内存里,然后线性的将每个小文件放到内存里快速的看有没有重复的行,时间复杂度为30分钟,这样两次就将总的时间降低成两次IO。
    如果1T文件内容全是数字,要实现对数字的排序,又该如何呢?我们可以一次IO将不同区间的数字分散到不同的文件中,比如以步长100作为间隔,这样一次IO得到的小文件外部有序,内部无序;小文件如果可以一次读到内存,实现排序,那么在经过一次IO就可以实现所有小文件的内部排序。加上外部本来就是有序的,那么总共经历两次IO就可以实现1T文件内容的排序。
    但是每次读取一行不符合常规,我们一般都次每次读取一定大小到内存,比如50MB;每次读取50MB进行排序生成一个小文件,那么一次IO(30分钟)就能得到一堆内部有序外部无序的小文件,然后做归并排序。
    模型如下图:提示:内存寻址比IO寻址快十万倍
    (2)集群处理,假设我们用2000台机器,每台存储1/2000,约500MB的数据,并行计算时间为一台500MB的时间损耗,每台单机哈希取模得到2000个散列小文件,每台单机并行从其他机器拉取相同文件号文件,消耗500M网络IO时间,假设网络IO每秒钟100M,那么耗时5秒;然后单机自行判定有无重复行,耗时1s。架构如图:
    在这里插入图片描述

集群分布式处理大数据的辩证

但是考虑到将1T数据分发到2000台机器中的时间,我们就会发现集群的处理速度并没有单机快(网络IO的时间比磁盘IO慢)
~2000台真的比一台速度快吗?
~如果考虑分发上传文件呢?
~如果考虑每天都有1T的数据的产生呢?
~如果增量了一年,最后一天计算数据呢?
如果单纯在某一个时间点比较单机和集群的速度,我们发现处理1T的数据单机确实比集群快;但是一家企业一年365天都需要大数据平台,每天都有数据增长。比如每天增长1T,单机单机耗时一小时乘于n天,但是集群增量式上传1T数据只需要消耗1T数据网络分发的时间加上集群计算的时间,如果网络IO100MB每秒,则集群总时间固定在3小时左右。
大数据实际应用:网易云音乐年度报表,支付宝年度报表等。

结论

~分而治之
~并行计算
~计算向数据移动
~数据本地化读取
以上这些点是学习大数据技术时需关心的重点。

Hadoop项目/生态

The project includes these modules:
~Hadoop Common
~Hadoop Distributed File System(HDFS)
~Hadoop YARN
~Hadoop MapReduce
Other Hadoop-related projects at Apache includes:
~Ambari
~Avro
~Cassandra
~Chukwa
~HBase
~Hive
~Mahout
~Pig
~Spark
~Tez
~Zookeeper

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值