- 博客(10)
- 资源 (1)
- 收藏
- 关注
原创 MapReduce实现简单join(利用框架排序机制)
有以下两个输入文件a.txt和b.txt,目的是将其按照第一列进行join#!/bin/pythonimport sysfor line in sys.stdin: ss = line.strip().split(' ') key = ss[0] value = ss[1] print "%s\t1\t%s" % (key,value)[root@ma...
2019-04-30 20:15:41 308
原创 Hive的Order by、Sort by、Distribute by和Cluster by的区别
在Hive中,可以像SQL一样对数据进行全局或局部排序,这里利用orders表来测试order by、sorty by、distribute by和cluster by的排序结果。数据准备orders表的字段如下:利用order_dow(其取值范围是0-6)字段来测试orders表的数据如下(limit 20):在以下测试中我设置reduce数为3,便于观察不同排序的效果set ma...
2019-04-28 16:07:28 3288 1
原创 Hive命令实践(内部表、外部表、分区、分桶等)
环境准备先启动hadoop集群然后启动mysql[root@master ~]# mysql -u root -p输入密码进入mysql并切换到数据库hivemysql> use hive;启动hive[root@master sbin]# hive数据集准备本地有以下两个数据文件作为表的数据源ratings.csv:1,31,2.5,12607591441,1...
2019-04-20 17:13:48 705
原创 Centos7搭建Hbase-1.3.1
1.集群环境 master:192.168.230.10 slave1:192.168.230.11 slave2:192.168.230.122.解压安装包在master的/usr/local/src/hbase下:[root@master hbase]# tar zxvf hbase-1.3.1-bin.tar.gz3.修改hbase配置在...
2019-04-19 19:37:59 628
原创 Centos7安装Zookeeper3.4.5
1. 集群环境Master 192.168.230.10Slave1 192.168.230.11Slave2 192.168.230.122.解压软件包在master的/usr/local/src/zookeeper下:[root@master zookeeper]# tar zxvf zookeeper-3.4.5.tar.gz3. 修改zookeeper配置...
2019-04-19 13:10:23 334
原创 MapReduce全局排序实践(利用Hadoop Streaming配置项)
有两个文本,a.txt和b.txt,目的是想整合两个文本按照第一列(key)的数值全局升序排列这个全局排序可以在本地通过linux命令进行:[root@master boya]# cat a.txt b.txt | sort -k1但是输出结果并不是按照数值升序:这是因为sort -k1默认队第一列的各key按照从左到右逐个比较对应的数字的ASCII码来排序的(字典排序),因此我们需...
2019-04-14 14:55:41 1601
原创 Centos7搭建Hive1.2.2(包括安装mysql及启动hive遇到的坑)
安装mysqlCentos7默认的是 Mariadb而不是mysql,将mysql数据库软件从默认的程序列表中移除,用mariadb代替了。如果使用以下命令安装,则安装mysql-server失败:#yum install mysql#yum install mysql-server查看是否安装mysql,结果返回空值:[root@master mysql]# rpm -qa | gre...
2019-04-12 17:28:28 2148
原创 Centos7搭建spark(3节点)
集群环境master:192.168.230.10slave1:192.168.230.11slave2:192.168.230.12运行环境spark:2.0.2scala:2.11.4安装scala在/usr/local/src/scala目录下解压:tar zxvf scala-2.12.4.tgz在~/.bashrc配置环境变量SCALA_HOMESCALA_HOM...
2019-04-11 22:38:11 675
原创 Centos7更改启动模式(图形或命令行)
1.systemctl get-default 命令获取当前模式2.systemctl set-default graphical.target 修改为图形界面systemctl set-default multi-user.target 修改为命令行模式3.reboot重新启动就可以了...
2019-04-10 20:53:31 1054
原创 win7下IntelliJ IDEA使用Maven搭建本地spark开发环境及解决执行错误
开发环境:IntelliJ IDEA ULTIMATE 2017.2运行环境:jdk1.8.0_2,scala-2.11.4安装jdk和scala在win7机器上安装jdk和scala,添加环境变量JAVA_HOME和SCALA_HOME,并追加到Path环境变量中:%JAVA_HOME\bin%;%JAVA_HOME\jre\bin%;%SCALA_HOME%\bin;IDEA导入j...
2019-04-05 16:34:37 614
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人