自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Yage的博客

一花一世界,一叶一菩提

  • 博客(10)
  • 资源 (1)
  • 收藏
  • 关注

原创 MapReduce实现简单join(利用框架排序机制)

有以下两个输入文件a.txt和b.txt,目的是将其按照第一列进行join#!/bin/pythonimport sysfor line in sys.stdin: ss = line.strip().split(' ') key = ss[0] value = ss[1] print "%s\t1\t%s" % (key,value)[root@ma...

2019-04-30 20:15:41 308

原创 Hive的Order by、Sort by、Distribute by和Cluster by的区别

在Hive中,可以像SQL一样对数据进行全局或局部排序,这里利用orders表来测试order by、sorty by、distribute by和cluster by的排序结果。数据准备orders表的字段如下:利用order_dow(其取值范围是0-6)字段来测试orders表的数据如下(limit 20):在以下测试中我设置reduce数为3,便于观察不同排序的效果set ma...

2019-04-28 16:07:28 3288 1

原创 Hive命令实践(内部表、外部表、分区、分桶等)

环境准备先启动hadoop集群然后启动mysql[root@master ~]# mysql -u root -p输入密码进入mysql并切换到数据库hivemysql> use hive;启动hive[root@master sbin]# hive数据集准备本地有以下两个数据文件作为表的数据源ratings.csv:1,31,2.5,12607591441,1...

2019-04-20 17:13:48 705

原创 Centos7搭建Hbase-1.3.1

1.集群环境 master:192.168.230.10 slave1:192.168.230.11 slave2:192.168.230.122.解压安装包在master的/usr/local/src/hbase下:[root@master hbase]# tar zxvf hbase-1.3.1-bin.tar.gz3.修改hbase配置在...

2019-04-19 19:37:59 628

原创 Centos7安装Zookeeper3.4.5

1. 集群环境Master 192.168.230.10Slave1 192.168.230.11Slave2 192.168.230.122.解压软件包在master的/usr/local/src/zookeeper下:[root@master zookeeper]# tar zxvf zookeeper-3.4.5.tar.gz3. 修改zookeeper配置...

2019-04-19 13:10:23 334

原创 MapReduce全局排序实践(利用Hadoop Streaming配置项)

有两个文本,a.txt和b.txt,目的是想整合两个文本按照第一列(key)的数值全局升序排列这个全局排序可以在本地通过linux命令进行:[root@master boya]# cat a.txt b.txt | sort -k1但是输出结果并不是按照数值升序:这是因为sort -k1默认队第一列的各key按照从左到右逐个比较对应的数字的ASCII码来排序的(字典排序),因此我们需...

2019-04-14 14:55:41 1601

原创 Centos7搭建Hive1.2.2(包括安装mysql及启动hive遇到的坑)

安装mysqlCentos7默认的是 Mariadb而不是mysql,将mysql数据库软件从默认的程序列表中移除,用mariadb代替了。如果使用以下命令安装,则安装mysql-server失败:#yum install mysql#yum install mysql-server查看是否安装mysql,结果返回空值:[root@master mysql]# rpm -qa | gre...

2019-04-12 17:28:28 2148

原创 Centos7搭建spark(3节点)

集群环境master:192.168.230.10slave1:192.168.230.11slave2:192.168.230.12运行环境spark:2.0.2scala:2.11.4安装scala在/usr/local/src/scala目录下解压:tar zxvf scala-2.12.4.tgz在~/.bashrc配置环境变量SCALA_HOMESCALA_HOM...

2019-04-11 22:38:11 675

原创 Centos7更改启动模式(图形或命令行)

1.systemctl get-default 命令获取当前模式2.systemctl set-default graphical.target 修改为图形界面systemctl set-default multi-user.target 修改为命令行模式3.reboot重新启动就可以了...

2019-04-10 20:53:31 1054

原创 win7下IntelliJ IDEA使用Maven搭建本地spark开发环境及解决执行错误

开发环境:IntelliJ IDEA ULTIMATE 2017.2运行环境:jdk1.8.0_2,scala-2.11.4安装jdk和scala在win7机器上安装jdk和scala,添加环境变量JAVA_HOME和SCALA_HOME,并追加到Path环境变量中:%JAVA_HOME\bin%;%JAVA_HOME\jre\bin%;%SCALA_HOME%\bin;IDEA导入j...

2019-04-05 16:34:37 614

疝气病病马horseColicData.zip

逻辑回归预测病马数据集,分为测试集和训练集,每个样本共22个字段,最后一个字段是其类别标签0或1,字段分隔符为'\t'

2019-07-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除