![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
一只考考拉
大数据开发工程师
展开
-
corntab --定时任务调度器
corntab常用命令:crontab [-u username] //省略用户表表示操作当前用户的crontab -e (编辑工作表) -l (列出工作表里的命令) -r (删除工作作)* * * * *(分钟、小时、日期、月份、每周的第几天)eg:5 * * * * Command 每小时的第5分钟执行一次命令30 18 * * * Command ...原创 2020-11-26 11:03:59 · 844 阅读 · 0 评论 -
error记录:内存溢出
内存溢出的个例和解决方法out of memory 错误内容解决方法out of memory 错误内容Container [pid=58615,containerID=container_e298_1570696032030_2741227_01_000003] is running beyond physical memory limits. Current usage: 11.2 GB ...原创 2019-10-29 16:24:44 · 275 阅读 · 0 评论 -
查看各种大数据插件的版本号
查看zookeeper版本:echo stat|nc localhost 2181查看hbase版本好:进入到hbase shell 会自动显示查看hadoop版本:进入到hadoop的home目录然后执行hadoop version查看hive版本:进入到hive的安装目录的lib包可以看jar包名称有版本号...原创 2019-04-11 15:46:35 · 830 阅读 · 0 评论 -
hive中小文件的产生原因 如何合并小文件 以及控制Map个数,增加/缩小map个数,
两种方式控制Map数:即减少map数和增加map数背景:首先同时可执行的map数是有限的。•通常情况下,作业会通过input的目录产生一个或者多个map任务•主要的决定因素有: input的文件总个数,input的文件大小。•举例a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(block为128M,6个128m的块和1个12m的块),从而...原创 2019-04-08 16:06:42 · 1976 阅读 · 0 评论 -
经典大数据题目
hdfs的读写流程答:client访问NameNode,查询元数据信息,获得这个文件的数据块位置列表,返回输入流对象。就近挑选一台datanode服务器,请求建立输入流 。DataNode向输入流中中写数据,以packet为单位来校验。关闭输入流mr on yarn 流程(1、)客户端提交作业申请- 客户端向ResourceManager(后续简称RM)提交作业申请。-...原创 2019-04-12 10:03:44 · 2245 阅读 · 0 评论