Hadoop
文章平均质量分 50
我要一步一步往上走
这个作者很懒,什么都没留下…
展开
-
hadoop-HDFS运行原理
1.外部是怎么跟namenode、datanode联系? 有外部要求读取数据的时候,外部会让一个客户端client,来执行这个命令,这个客户端不会直接去跟namenode、datanode直接操作,是用调用了对象的一个类,跟namenode联系的时候是通过这个Distributed FileSystem这个对象,客户端的执行命令是读取,那就是调取这个对象的open方法,然后这个对象对na原创 2017-12-13 17:51:51 · 174 阅读 · 0 评论 -
Mapreduce工作机制(一)框架
JobTracker是一个皇帝,在一个集群中只有一个,他有个太子是secondnamenode,在皇帝宕机的时候,需要人为去启用secondnamenode这个太子,下面那些节点就是皇帝的官员,可以有很多个,TaskTracker是这些官员的指挥中心,一边跟皇帝联系一边指挥自己节点执行任务,DataNode主要是放每个节点里面要处理的数据。。。mapreduce程序可以在任何节点上面提交给JobT原创 2017-11-28 13:31:38 · 637 阅读 · 0 评论 -
hadoop pig store保存输出格式设置USING PigStorage
mapreduce之后我们想把文件保存下来,变成csv的格式,我们就在store保存语句后面加上USING PigStorage(','),发现一个问题就是在每一行最末端也自动加了逗号,这个使我们sqoop把文件导入数据库出现格式错误,怎样把最后的逗号去掉呢?找了很久,终于找到,在pig的安装路径conf/pig.properties加上了这个参数textinputform原创 2018-01-12 14:59:51 · 1119 阅读 · 0 评论