大数据
小太阳012345
这个作者很懒,什么都没留下…
展开
-
Spark
1.Spark VS Mapreduce2.Spark SQL VS Hive3.Spark Streaming VS Storm原创 2020-03-20 14:44:27 · 174 阅读 · 0 评论 -
记一次小米数据挖掘面试
记小米面试小米数据挖掘面试:一面:1.Q:hadoop重点是MapReduce的基本工作原理。A:首先mapreduce主要有两个阶段组成,map和reduce。map端接收key/value形式的数据输入,并产生key/value形式的数据作为中间输出。reduce接收map端输出的数据作为输入,经合并key相同的数据,产生另外key/value形式的数据。中间会发生shuffle过程。...原创 2019-12-29 20:05:20 · 970 阅读 · 0 评论 -
MapReduce框架
一 MapReduce中Map和Reduce的任务数量中间数据回写到磁盘中,运行速度慢,适合处理海量的离线大数据spark和storm等都不往磁盘中写文件,处理速度快,因此适合处理实时数据。但并不能真正的代替mapreduce。Map task的并发数量:1.map task的并发是由切片的数量决定的,有多少个切片,就启动多少个map task2.切片是一个逻辑的概念,指的是文件中数据的...原创 2019-09-03 16:51:57 · 164 阅读 · 0 评论 -
YARN框架
YARN中又两个Manager:ResourceManager和NodeManagerYARN:主要用于资源调度处理步骤:1.RunJar申请执行一个Job waitForCompletion()启动一个RunJar的进程——>报告resourceManeger2.ResourceManeger返回job相关的资源提交的路径(staging-dir)和为本job产生的JobID给...原创 2019-09-02 13:54:34 · 112 阅读 · 0 评论 -
hadoop环境配置
一、在hadoop安装目录下/etc/Hadoop下:hadoop-env.sh配置vi hadoop-env.sh修改配置export JAVA_HOME=/home/liujie/JDK/jdk1.8.0_131core-site.xml配置vi core-site.xml<property> <name>fs.defaultFS<...原创 2019-08-30 14:21:09 · 174 阅读 · 0 评论 -
linux中eclipse64位下载链接百度网盘
hadoop中eclipse下载链接:https://pan.baidu.com/s/1FkipkU9rkWnhmLV4zDgawA提取码:wnlg原创 2019-08-30 14:12:31 · 2734 阅读 · 0 评论 -
Hadoop无密登陆配置
一、远程登陆到另外一台主机:(正常是密码验证)查看主机2的ip地址把主机2的ip加入到本机的/etc/hosts文件使用ssh 主机2名 命令登陆成功!远程登陆到主机2二、改为密钥登陆:主机1远程登陆到主机21.首先在主机1生成一对密钥(公钥和私钥)##ssh-keygen -t rsa(全部默认)2.把公钥复制给主机2##scp id_rsa.pub rack2:/h...原创 2019-08-30 14:10:06 · 121 阅读 · 0 评论 -
hadoop Namenode负责管理元数据
hadoop环境搭建原创 2019-08-30 14:07:42 · 987 阅读 · 0 评论