- 博客(12)
- 收藏
- 关注
原创 用最短的时间学会使用Azkaban来管理我们的任务
学会使用Azkaban来管理我们的任务Azkaban是什么: Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。Azkaban架构:1、MySQL实例:Azkaban使
2017-10-26 20:34:04 3270
原创 linux之shell编程
shell脚本的执行方式:1、sh helloworld.sh2、source helloworld.sh或 . helloworld.sh3、使用脚本文件的绝对路径直接执行该脚本文件:/root/test/helloworld.sh(需要可执行权限)最简单的shell编程:第一步:打开文本编辑器vim helloworld.sh
2017-10-26 10:13:58 410
原创 This application failed to start because it could not find or load the Qt platform plugin "
今天使用pycharm进行绘图,结果发现报错,代码在其他机器运行正常,原因已经找到,是因为使用Anaconda进行python的配置,但是在配置完python后将Anaconda的安装目录进行了修改,但是在Anaconda中打开qt.conf文件查看后发现,该配置文件配置的路径是修改前的路径,所以我将qt.conf的路径修改成了正确的路径,结果错误消失.报错信息如下:我在我的Ana
2018-01-31 11:06:07 1780 2
原创 ZooKeeper(一)之为什么要使用ZooKeeper
ZooKeeper是什么?ZooKeeper是一个分布式协调服务,它致力去解决如何在分布式环境下保持数据一致性的问题。ZooKeeper是致力于解决分布式上各种协调问题的一个服务。 ZooKeeper是干什么的?1、可以保证事务执行顺序的一致性:在分布式系统中,在没有ZooKeeper的时候,多台服务器上执行任务我们需要考虑各台服务器上任务的协调,比如事务A在事务B前面执行,由
2017-10-30 16:20:18 3891 1
原创 hive中如何自定义编写UDF函数
有时候hive提供的内置函数无法满足我们的需求,这时候我们就可以自定义函数了,步骤如下:1、编写UDF代码2、打包成jar包然后上传到服务器3、将jar包添加到hive中4、创建临时函数与写好的class绑定5、使用我们自定义的函数6、销毁不需要的函数1、编写UDF代码:我们使用eclipse编写java代码,首先我们需要导包,将hive安装目录下lib目录
2017-10-26 20:02:19 1941
原创 linux中合并多个文本文件以及对数据的处理
合并文件: 当一个文件夹下有很多的较小的文本文件,我们希望将其合并成一个文件,可以使用cat 文件夹名/* > 文件名如/home/user/sougou/目录下有500个1M大小的文本文件,我们希望将其合并成一个文件:先cd到家目录下:cd /home/user然后合并文件:cat sougou/* > sougouall.txt执行以上命令后我们将在/home/u
2017-10-26 19:46:05 3316
原创 linux中批量添加用户
首先创建一个文件,用来保存用户名称:cd /vim users.txt编辑用户信息:user1user2user3user4编辑shell脚本:vim adduser.sh#!/bin/bashULIST=$(cat /users.txt)for UNAME in $ULISTdouseradd $UNAMEecho "123456
2017-10-26 10:58:52 1923
原创 Hive中and和or的执行顺序
今天在网上看到hive中and的执行优先级比or高,觉得很奇怪,于是就亲自尝试了一下,发现果然如此,下面是我测试的一些简单语句:select 1 from student where 1=0 or 1=1 and 1 = 0;执行结果为空select 1 from student where 1=0 or 1=1 and 1 =1;执行结果为1第二个select语句毫无疑问w
2017-10-25 21:21:12 15176 2
原创 如何编写最简单的MapReduce之WordCount程序
Mapper端:Map端传入的数据是一个文本格式的数据,每一行都分别执行map方法,map方法调用的次数等同于文本的行数Redecer端:map端传来的数据进入reduce方法前会分组和排序,因此进入reduce方法的数据是已经按key分组后的数据,每一个相同的key所对应的多个value都存放到迭代器中,所有相同key的数据一起执行一次reduce方法,因此r
2017-10-25 11:52:57 445
原创 关于hive的总结
hive的总结:group by: group by中有若干陷阱,首先,group by中不能使用当前层次中select查询字段的别名,如:select name a,count(*) from student group by a;这句查询语句是错误的,但是,group by可以使用子查询中select查询字段的别名,如:select m.a,count(*) from
2017-10-25 11:11:06 470
原创 WritableComparable
MapReduce中WritableComparable该接口实现了Writable和Comparable接口,而Writable接口中定义了readFields(DataInput in)方法和write(DataOutput out)方法,分别用来实现序列化和反序列化,而Comparable接口中定义了compareTo方法,该方法用来重写shuffle过程中对key的排序,因此如果想要让自定
2017-10-25 10:43:48 1444
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人