Hadoop学习
文章平均质量分 53
taiyangdixiasj
这个作者很懒,什么都没留下…
展开
-
Hadoop中几个基本命令行命令
对HDFS操作的几个命令(必须是Hadoop命令,否则只是对本地操作)1. 查看HDFS中某个目录或文件的包含哪些文件和文件夹: bin/hadoop dfs/fs -ls 文件(夹)路径 若是非空文件夹,则为目录:查看结果显示目录下的文件和文件夹。 若是空文件夹:查看结果为空。 若是文件:查看结果为该文件本身信息。 对于查原创 2013-09-19 08:57:55 · 1018 阅读 · 0 评论 -
实战Hadoop中遇到的几个类、接口说明
1. Configuration :public 类型接口,这个接口包含的多数方法是进行与数据属性有关的操作。 几个方法: 1)addProperty(String key, Object value): Add a property to configuration 2)setProperty(String key, Object value): Set a pro原创 2013-09-22 22:33:25 · 837 阅读 · 0 评论 -
安装配置hive中遇到的问题
1,mysql中添加用户名时总出现如下问题:ERROR 1290 (HY000): The MySQL server is running with the --skip-grant-tables option so it cannot execute this statement 解决办法:flush privileges; //新设置用户或更改密码后需要用该命令刷新mysql的原创 2013-10-13 14:47:08 · 750 阅读 · 0 评论 -
block和split的理解
两者是从不同的角度来定义的:HDFS以固定大小的block为基本单位存储数据(分布式文件系统,实际存储角度,物理存储单位),而MapReduce以split作为处理单位(编程模型角度,逻辑单位)。对于文件中的一行记录,可能会划分到不同的block中,也可能划分到不同的split中。split是逻辑上的概念,它只包含一些元数据信息,比如数据起始位置、数据长度、数据所在节点等,它的划分方法完全原创 2014-02-13 11:38:32 · 2512 阅读 · 0 评论 -
旧版API的TextInputFormat源码分析
TextInputFormat类package org.apache.hadoop.mapred;import java.io.*;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoo原创 2014-02-13 21:26:09 · 979 阅读 · 0 评论 -
MR并行算法编程过程中遇到问题的思考
1. Reducer 类中 reduce函数外定义的变量是在Reducer机器上属于全局变量的,因此,原创 2014-04-19 09:04:33 · 1065 阅读 · 0 评论 -
Pig基础学习【持续更新中】
本文参考了Pig官方文档以及已有的一些博客,并加上了自己的一些知识性的理解。目前正在持续更新中。Pig作为一种处理大规模数据的高级查询语言,底层是转换成MapReduce实现的,可以作为MapReduce的一种脚本语言,大大简化了对数据操作的代码。原创 2015-07-10 14:34:16 · 893 阅读 · 0 评论 -
SparkLauncher 1.6 版本bug
简要介绍了SparkLauncher 类,并指出在Spark 1.6版本中其应用过程中相关类的一个Bug,该Bug目前在Spark 2.0中得到解决。原创 2016-12-12 22:47:34 · 2425 阅读 · 0 评论