大数据
文章平均质量分 70
Learn_ZhangK
专注一个行业;精于一门语言;旁通多种技能;把握自己,做一个安安心心的内省式工匠。
展开
-
Hadoop集群作业调度算法
1.简介 分布式文件系统在调度作业的时候可以通过参数来设置job作业调度。开门见山,常见的有三种,先进先出FifoScheduler,默认的调度算法,先进先出的方式处理应用,只有一个队列可提交应用,没有应用优先级可以配置;公平调度器FairScheduler,多队列的,多用户共享资源.程序在运行的时候可以在客户端设置优先级,也可以设置抢占;容量调度器CapacitySchedule原创 2018-01-23 15:36:00 · 502 阅读 · 0 评论 -
大数据中常用脚本--sort(一)
1.简介1.1国际惯例按照国际惯例先来理论的介绍。sort是在Linux里非常常用的一个命令,管排序的。工作原理:sort将文件的每一行作为一个单位,相互比较,比较原则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出。在其中我们会遇到需要数值排序的,别急,慢慢来,都是干货。2.常用选项2.1 sort的-u选项它的作用很简单,就是在输出行中去除重复行。[rocrocket@roc...原创 2018-05-09 21:06:13 · 627 阅读 · 0 评论 -
大数据中常用脚本--sort(二)
1.简介1.1国际惯例按照国际惯例先来理论的介绍。sort是在Linux里非常常用的一个命令,管排序的。工作原理:sort将文件的每一行作为一个单位,相互比较,比较原则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出。在其中我们会遇到需要数值排序的,别急,慢慢来,都是干货。3.(接上)实际应用数据准备:$ cat facebook.txtgoogle 110 5000baidu ...原创 2018-05-10 10:53:48 · 324 阅读 · 0 评论 -
大数据中常用脚本--cut
1.简介1.1 国际惯例按照国际惯例先来理论的介绍。cut是在Linux里非常常用的一个命令,cut命令是一个选取命令,其功能是将文件中的每一行”字节” ”字符” ”字段” 进行剪切,选取我们需要的,并将这些选取好的数据输出至标准输出。执行过程:选取命令通常是针对一行一行的数据来进行分析的, 并不是整篇信息分析。2.常用选项使用时的一般格式:cut -[n]b file cut -c file ...原创 2018-05-11 17:56:56 · 795 阅读 · 0 评论 -
大数据中常用脚本--grep
1.简介1.1国际惯例按照国际惯例先来理论的介绍。grep则是分析一行信息, 若当中有我们所需要的信息,就将该行拿出来。类似的上一篇中,cut是将一行信息当中,取出某部分我们想要的。它能使用正则表达式搜索文本,并把匹配的行打印出来。2.常用选项2.1 grep的格式grep [-acinv] [--color=auto] '搜寻字符串' filename常用的选项与参数:-a :将 binary...原创 2018-05-11 18:25:09 · 428 阅读 · 0 评论 -
大数据中常用脚本--awk进行统计分析 SQL
1.简介 1.1国际惯例 按照国际惯例先来理论的介绍。awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 G...原创 2018-05-21 15:22:57 · 958 阅读 · 0 评论 -
大数据中常用脚本--解压
1.解压tar –xvf file.tar //解压 tar包tar -xzvf file.tar.gz //解压tar.gztar -xjvf file.tar.bz2 //解压 tar.bz2tar –xZvf file.tar.Z //解压tar.Zunrar e file.rar //解压rarunzip file.zip //解压zip2.压缩tar –cvf jpg...原创 2018-05-08 19:44:41 · 569 阅读 · 0 评论