hadoop
kangwq2017
这个作者很懒,什么都没留下…
展开
-
PySpark完美安装
PySpark安装原创 2023-03-14 22:16:44 · 1659 阅读 · 0 评论 -
RDD分区数量
RDD分区数量原创 2023-02-27 20:55:28 · 99 阅读 · 0 评论 -
sparn on kerberos-yarn
sparn on kerberos-yarn原创 2023-02-25 21:55:52 · 434 阅读 · 0 评论 -
spark之flatMap操作
flatMap示例原创 2023-02-25 14:16:29 · 400 阅读 · 0 评论 -
Hive Sql整体优化思路
Hive Sql整体优化思路原创 2023-02-24 22:45:28 · 423 阅读 · 0 评论 -
PySpark+HDFS+Kerberos
pyspark读取开了Kerberos的HDFS上的文件原创 2023-02-24 21:28:38 · 624 阅读 · 0 评论 -
MapReduce:共同好友
社交网站上,在看好友信息时,经常会得到如下一个信息,你和xxx有N位共同好友。下面是A、B、C、D、E 5个人的好友情况:A -> B C DB -> A C D EC -> A B D ED -> A B C EE -> B C D第一行的意思是A有BCD 3个好友,下面几行的以此类推。请使用 map reduce 任务,完成共同好友这个功能。要求:1.原创 2016-07-11 15:10:14 · 1572 阅读 · 1 评论 -
对MapReduce初步认识
MapReduce基于“分而治之”的思想,将计算任务抽象成map和reduce两个计算过程。通过适当的split任务,可以充分发挥单台机器的计算能力。同时,良好的伸缩性,使得集群容易扩展。在容错方面,单台节点的失败可由其它节点重算,不会影响其它节点的计算。其缺点是计算的中间结果以文件形式存储,效率较低。另外,MapReduce不适合计算密集型的操作,如机器学习,因为这类任务通常需要反复的迭代,而M原创 2016-07-11 15:12:22 · 725 阅读 · 0 评论 -
为何Hadoop中的块如此之大
HDFS的块比磁盘的块大,目的是使(块的寻址时间/块的总读取时间)尽可能小。如果块设置得足够大,从磁盘传输数据的时间会明显大于块寻址时间。例如,假设寻址时间为10ms,而传输速度为100MB/s,为了使寻址时间仅占传输时间的1%,可将块大小设置为100MB。现在默认块大小多为128MB。 不适合将块大小设置得太大。MapReduce中的任务通常一次只处理一个块中的数据,因此如果任原创 2016-07-09 11:19:23 · 651 阅读 · 0 评论