hadoop
奋斗的小乌龟
这个作者很懒,什么都没留下…
展开
-
Hive的安装和配置mysql数据库
hive是建立在hadoop上的,当然,你如果只搭建hive也没用什么错。说简单一点,hadoop中的mapreduce调用如果面向DBA的时候,那么问题也就显现了,因为不是每个DBA都能明白mapreduce的工作原理,如果为了管理数据而需要学习一门新的技术,从现实生活中来说,公司又需要花钱请更有技术的人来了。 开个玩笑,hadoop是为了存储数据和计算而推广的技术,而和数据挂钩的也就属于...原创 2018-09-04 10:39:03 · 1023 阅读 · 0 评论 -
hive入门四--分桶
对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是 针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。把表(或者分区)组织成桶(Bucket)有两个理由:获得更高的查询处理效率。桶为表加上了额外的结构,Hive 在处理有些查询时能利用这个结构。具体而言,连接两个在(...原创 2018-09-06 12:00:34 · 1005 阅读 · 0 评论 -
CentOS上安装docker
1. 查看linux的kernel版本[root@langzi01 ~]# uname --r3.10.0-862.11.6.el7.x86_642. 使用 sudo 或 root 权限的用户登入终端3. 确保yum是最新的[root@langzi01 ~]# yum update4. 添加 yum 仓库[root@langzi01 conf]# tee /e...原创 2018-09-03 19:31:54 · 84 阅读 · 0 评论 -
hive入门三
1. 建表语句:CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPORARY available in Hive 0.14.0 and later) [(col_name data_type [COMMENT col_comment], ... [const...原创 2018-09-05 20:32:17 · 478 阅读 · 0 评论 -
hive七__一个很难的面试题
求单月访问次数和总访问次数1、数据说明 字段说明: ** 用户名,月份,访问次数 数据内容如下:A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,201...原创 2018-09-08 22:56:57 · 1539 阅读 · 1 评论 -
hive六__Hive自定义函数和Transform
编写UDF函数,来将原来创建的buck_ip_test表中的英文国籍转换成中文iptest.txt文件内容:1 张三 192.168.1.1 china2 李四 192.168.1.2 china3 王五 192.168.1.3 china4 makjon 192.168.1.4 china1 aa 192.168.1.1 japan2 bb ...原创 2018-09-08 22:04:02 · 261 阅读 · 0 评论 -
实现用户手机流量统计(ReduceTask并行度控制)
需求:1.实现用户手机流量统计(ReduceTask并行度控制)数据如下:保存为.dat文件(因为以\t切分数据,文件格式必须合适)13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 20013826544101 ...原创 2018-09-02 20:06:03 · 582 阅读 · 0 评论 -
MapReduce切片机制以及maptask和reducetask并行度设置
MapReduce运行流程1最先启动MRAppMaster,MRAppMaster根据job的描述信息,计算需要的maptask实例的数量,然后向集群申请机器,启动相应数量的maptask进程。2 maptask启动之后,根据给定的数据切片范围进行数据处理。A 利用指定的inputformat来获取RecordReader对象读取数据,形成KV输入。B 将输入的kv对传递给客户定义...原创 2018-09-02 18:35:23 · 907 阅读 · 0 评论 -
wordcount代码实现
map的编写import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;...原创 2018-09-02 16:49:09 · 2082 阅读 · 0 评论 -
MapReduce的核心思想
MapReduce的核心思想原创 2018-08-07 11:35:10 · 3343 阅读 · 0 评论 -
HDFS之namenode管理元数据机制及一些问题
namenode对数据的管理采用了三种存储形式:内存元数据(NameSystem) 磁盘元数据镜像文件 数据操作日志文件(可通过日志运算出元数据) 元素据存储机制1、内存中有一份完整的元数据(内存meta data) 2、磁盘有一个“准完整”的元数据镜像(fsimage)文件(在namenode的工作目录中) 3、用于衔接内存metadata和持久化元数据镜像fsi...转载 2018-09-01 16:08:04 · 564 阅读 · 0 评论 -
HDFS的java客户端
API_01//获取一个配置对象Configuration conf = new Configuration();//查看配置对象的所有内容Iterator<Entry<String, String>> it = conf.iterator();while(it.hasNext()) { System.out.println(it.next());}...原创 2018-09-01 19:48:28 · 154 阅读 · 0 评论 -
Hadoop的RPC调用示例
定义一个通讯协议的接口public interface ClientNamenodeProtocal { long versionID = 1L; String getMetaData(String path);}实现类public class MyNameNode implements ClientNamenodeProtocal{ @Overr...原创 2018-09-01 19:53:27 · 201 阅读 · 0 评论 -
hive入门二(将hive发布为服务)
hive发布为服务进入hive的bin目录[hadoop@langzi01 bin]$ cd /usr/soft/hive/bin/查看列表[hadoop@langzi01 bin]$ ll内容如下:-rwxr-xr-x 1 hadoop hadoop 1031 Apr 1 2017 beelinedrwxr-xr-x 3 hadoop hadoop 40...原创 2018-09-04 11:01:28 · 172 阅读 · 0 评论 -
hive入门一
1. 创建仓库hive> create database shizhan03;OKTime taken: 0.379 seconds相当于在hdfs里面创建了一个目录,路径如下:/user/hive/warehouse/shizhan03.db2. 使用仓库hive> use shizhan03;OKTime taken: 0.042 seconds...原创 2018-09-04 10:46:51 · 142 阅读 · 0 评论 -
hive入门五
join操作1. 创建两张表create table t_a(id int,name string) row format delimited fields terminated by ',';create table t_b(id int,name string) row format delimited fields terminated by ',';a.txt内容如下...原创 2018-09-06 16:11:11 · 120 阅读 · 0 评论