![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据技术进阶
msadu
说多了都是扯犊子!!!
展开
-
对Spark中shuffle机制的浅谈
Shuffle,洗牌、搅乱的意思。顾名思义就是把有规则或者有顺序的东西,打乱。打过扑克和麻将的童鞋们会有切身的体验。而在Spark中,Shuffle的过程正好相反,它是将一组无规则的数据,变成一个有规则的数据的一个过程。因为Spark是一个并行分布式的计算框架,数据是按照Key进行分区的,一块块的分区分散在集群中的各个节点上,并不是所有的计算算子都满足于按照一种方式分区进行计算。例如,当需要对数据转载 2017-06-17 09:14:23 · 304 阅读 · 0 评论 -
消息队列应用场景
消息队列应用场景1异步处理场景说明:用户注册后,需要发注册邮件和注册短信。传统的做法有两种1.串行的方式;2.并行方式。(1)串行方式:将注册信息写入数据库成功后,发送注册邮件,再发送注册短信。以上三个任务全部完成后,返回给客户端。(架构KKQ:466097527,欢迎加入)(2)并行方式:将注册信息写入数据库成功后,发送注册邮件的同时,发送注册短信。以上三个任务完转载 2017-06-25 16:40:15 · 267 阅读 · 0 评论 -
大数据技术入门
1、SqoopSqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 对于某些NoSQL数据库,它也提供了连接器。Sqoop类似于其他ETL工具,使用元数据模型来判断数据类型并在数据从数据源转移到Hadoo原创 2017-06-11 11:10:29 · 490 阅读 · 0 评论 -
大数据工具命令行学习
1、hive命令在Hive shell下执行hadoop命令行: #比如:hadoop fs -ls /,在hive下可以这样执行: hive> dfs -ls /; 在Hive shell下执行linux系统命令: !cmd; 例如:!pwd;打印当前工作目录 在Hive shell下执行sql文件: hive原创 2017-10-20 11:59:35 · 667 阅读 · 0 评论