大数据
文章平均质量分 91
大尾巴狼的觉悟
这个作者很懒,什么都没留下…
展开
-
惊云网盘技术文档
**123网盘技术文档**1,背景:刚刚学习了hdfs,以及HBase等框架,为了加深理解,特以此网盘小项目作为试炼。2,简介123网盘项目主要模仿市面上的网盘的一些基本功能,舍弃了页面,交互等高级的应用功能,以练习基础为出发点,自我开发设计,主要实现了的功能有:登陆、注册显示文件信息内存空间计算上传下载创建目录删除文件3,技术选型主要依托:大数据与...原创 2018-10-25 21:28:12 · 529 阅读 · 9 评论 -
Hive优化,基于MR的分析
Hive优化总结优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几...转载 2018-11-27 10:27:37 · 716 阅读 · 0 评论 -
spark运行原理和启动
#集群启动spark-shell(指定了集群的参数)–集群主机url --核心数 --使用内存 --运行程序 --路径/opt/spark/bin/spark-shell --master spark://master1:7077 --executor-memory 512mSpark集群中运行.py文件命令:/opt/spark/bin/spark-submit --master...原创 2018-11-28 17:45:00 · 221 阅读 · 0 评论 -
sparksql的三种join实现
sparksql的三种join实现引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。对于Spark来说有3中Join的实现,每种Join对应着不同的应用场景:Broadcast Hash Join : 适合一张较小的表和一张大表进行joinShuffle Hash Joi...转载 2018-12-11 19:17:26 · 857 阅读 · 0 评论