- 博客(21)
- 资源 (7)
- 收藏
- 关注
转载 linux grep命令详解
简介grep (global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。Unix的grep家族包括grep、egrep和fgrep。egrep和fgrep的命令只跟grep有很小不同。egrep是grep的扩展
2015-01-31 19:48:22 351
转载 linux sed命令详解
简介sed 是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有 改变,除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件;简化对文件的反复操作;编写转换程序等。
2015-01-31 15:30:28 423
转载 linux sort,uniq,cut,wc命令详解
sortsort 命令对 File 参数指定的文件中的行排序,并将结果写到标准输出。如果 File 参数指定多个文件,那么 sort 命令将这些文件连接起来,并当作一个文件进行排序。sort语法[root@www ~]# sort [-fbMnrtuk] [file or stdin]选项与参数:-f :忽略大小写的差异,例如 A 与 a 视为编码相同;-b
2015-01-31 14:47:22 481
转载 linux awk命令详解
简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。awk其名称得自于它的创始人 Alfr
2015-01-31 10:27:05 655
原创 去除文件重复行
name="dianshang dongman fangchan jingrong lvyou muying qiche shenghuo shipin shishang shuma tuangou xiaoshuo xinwen youxi"for na in $namedo#echo -e "$na\n"echo $nacat data/$na|grep -v "^$"|sort
2015-01-30 16:56:20 503
转载 shell去掉文件中空行(空白行)的方法详解
最近要查看的日志文件提取后有很多空行,不利于以前的文件可以进行比较了,为了向下兼容,只能取得时候把空行删除掉。自己google了一下,用了grep方法,效率还是挺快的,25000+行中73行空行,瞬间搞定,应该可以接手。 方法一:(我就是用的这个) grep -v "^$" file 去除匹配的空行另外在排查找错的时候也利用grep 查看那几行是空行,从而从原来的日志文件查看那几行为什
2015-01-30 16:47:03 29022
转载 Shell编程-awk
简介awk 是一种对立的编程语言,集成于所有UNIX/Linux中,这个名字是它创建者的名字首字母组成的 Alfred Aho,Peter Weinberger, and Brian Kernighan。awk的基本语法普通模式awk '/pattern/{action}' files其中patter是一个正则表达式,action又是一系列命令,对于满足匹配的文
2015-01-30 10:53:01 572
转载 Java 正则截取两个标签之间字符串
Java 正则 , 截取两个标签之间字符串 :String testStr = "12315show me";Pattern p = Pattern.compile("(.*)");Matcher m = p.matcher(testStr);while(m.find()){System.out.println(m.group(1));} 如上, 控制台输出应为:show me.
2015-01-29 14:58:33 7121
转载 Hive Tips
在Hive中,某些小技巧可以让我们的Job执行得更快,有时一点小小的改动就可以让性能得到大幅提升,这一点其实跟SQL差不多。首先,Hive != SQL,虽然二者的语法很像,但是Hive最终会被转化成MapReduce的代码去执行,所以数据库的优化原则基本上都不适用于 Hive。也正因如此,Hive实际上是用来做计算的,而不像数据库是用作存储的,当然数据库也有很多计算功能,但一般并不建议在
2015-01-28 13:34:33 475
转载 Hive几种数据导入方式
好久没写Hive的那些事了,今天开始写点吧。今天的话题是总结Hive的几种常见的数据导入方式,我总结为四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。我会对每一种数据的导入进行实际的操作,因为纯粹的文字让
2015-01-28 10:18:33 639
转载 Hive几种数据导出方式
今天我们再谈谈Hive中的几种不同的数据导出方式。可以根据导出的地方不一样,将这些方式分为三种:(1)、导出到本地文件系统;(2)、导出到HDFS中;(3)、导出到Hive的另一个表中。为了避免单纯的文字,我将一步一步地用命令进行说明。 一、导出到本地文件系统1 2hive> inser
2015-01-28 10:14:33 685
转载 Linux里awk中split函数的用法小结
The awk function split(s,a,sep) splits a string s into an awk array a using the delimiter sepThe awk function split(s,a,sep) splits a string s into an awk array a using the delimiter sep.set
2015-01-27 11:13:19 27934
转载 MapReduce的顺序式依赖关系组合式链式
一、顺序式执行完一个mapreduce,再执行一个mapreduceconfiguration conf1 = new configuration();conf1.set("mapred.job.tracker", "192.168.1.164:9001");string[] ars=new string[]{"t2g_input","t2g_output1"};string
2015-01-27 10:04:27 2040
转载 hadoop超时解决办法context.progress()的作用 假设在map()方法中,你有一个从数据库读取大量数据的操作,是用一个循环来完成的,并且,在读完全部的数据之前,你不会有任何的数据输出
进行矩阵计算的时候,由于持续时间长,往往会出现超时的错误,错误内容如下:Task attempt_201005281116_119912_r_000823_0 failed to report status for 606 seconds. Killing! 10/06/10 10:49:45 INFO mapred.JobClient: Task Id : attempt_20100
2015-01-26 10:15:35 1691
转载 浅析Mapper类之setup()和cleanup()方法
hadoop中的MapReduce框架里已经预定义了相关的接口,其中如Mapper类下的方法setup()和cleanup()。setup(),此方法被MapReduce框架仅且执行一次,在执行Map任务前,进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中,导致Mapper任务在解析每一行输入时都会进行资源初始化工作,导致重复,程序运行效率不高!cle
2015-01-26 10:06:41 1529
转载 hadoop如何执行自己编写的MapReduce程序
比如我们现在写好了一个mapred程序如下:package com.besttone.mapred;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;impo
2015-01-26 09:58:52 2747 1
转载 Hadoop 的HA高可集群用性
一、 Hadoop 的高可用性1. 概论本指南提供了一个HDFS 的高可用性(HA )功能的概述,以及如何配置和管理HDFS 高可用性(HA) 集群。本文档假定读者具有对HDFS 集群的组件和节点类型具有一定理解。有关详情,请参阅Apache 的HDFS 的架构指南。http://hadoop.apache.org/common/docs/current/hdfs_design.htm
2015-01-17 00:21:09 833
转载 你为什么学习Hadoop
记得11年的时候在百度知道搜Hadoop相关的问题每天只有零星几个,那会我基本每天都要去看看有没我能回答的问题。现在去百度知道搜索Hadoop已经有800多万个问题。12年的时候我在百度空间发了一篇博文>可通过左下角阅读原文进行查看。两年来陆续收到一些同学的来信。因工作原因帮助了一些同学,也忽略了一些同学,当年的新手也成为现在Hadoop的实践者和先知者,今天主要谈谈现在关于Hadoop的工作岗位
2015-01-15 09:45:48 774
转载 hadoop以jar形式运行代码 并运行时动态指定参数
前言: 在执行 wordcount代码中,文件参数在代码中写死,如果希望动态指定 文件参数的话,可以将工程打成jar方式,在hadoop环境下执行,步骤如下: 1 wordcount类适量修改成如下:package mapreduce;import java.io.IOException;import java.net.URI;import java.net.URI
2015-01-13 11:41:47 6439
转载 eclipse 中 svn 更新 提交 同步资源库 详细解释下他们的功能
原理是这样的 svn服务器一般放在公共的服务器上,大家连这个服务器,在MyEclipse上使用svn控件 可以下载svn上的项目至本地,所以很多公司将开发要用到的软件都放在svn上,有同事来只要连上svn 就可以把需要的东西下下来了更新是指 服务器上变动了的 而你本地没有变动,需要你更新, update更新提交是指 服务器上没有的,也就是你改过的东西,你需要将代码提交,其他同事更新你的代码
2015-01-07 18:22:16 3750
美团-机器学习-实践_最新AI算法实践真知
2018-11-22
elasticsearch-the-definitive-guide-cn
2018-08-22
漫谈设计模式
2013-11-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人