2018年01月_利剑 -~

转载 python获取当前时间和前一天时间

import timetime.strftime('%Y%m%d')//获取了当前时间的年月日datetime：获取昨天的时间import datetimenow_time = date time.datetime.now()yes_time = now_time + date time.timedelta(days=-1)yes_time_nyr

2018-01-31 01:03:50 4748

转载 Hive压缩说明

为什么要压缩在Hive中对中间数据或最终数据做压缩，是提高数据吞吐量和性能的一种手段。对数据做压缩，可以大量减少磁盘的存储空间，比如基于文本的数据文件，可以将文件压缩40%或更多。同时压缩后的文件在磁盘间传输和I/O也会大大减少；当然压缩和解压缩也会带来额外的CPU开销，但是却可以节省更多的I/O和使用更少的内存开销。压缩模式说明1. 压缩模式评价可使用以下三种标准

2018-01-31 00:58:30 321

转载使用grep -v时候，想去除多个pattern

使用grep -v时候，想去除多个pattern原创 2014年05月27日 14:01:033845grep -v with multiple patternsgrep test somefile | grep -v -e error -e critical -e warninggrep test somefile | grep -vE '(e

2018-01-31 00:54:54 2613

转载 python3获取两个日期之间所有日期，以及比较大小

原创 2017年10月09日 14:00:14标签：python1370[python] view plain copyimport datetime [python] view plain copy#获取两个日期间的所有日期 def getEve

2018-01-31 00:52:08 2515

转载 python 下字符串格式时间比较

python 下字符串格式时间比较python 下有多个有关时间的模块，分别是time、datetime、calendar，今天重点讨论下time写法。其中time模块，主要有以下方法：ltime=time.time() 获取当前系统时间，返回float型数值时间戳（当前时间相对于1970.1.1 00:00:00以秒计算的偏移量）；localtime=time.l

2018-01-31 00:51:27 606

转载 sqoop操作之Oracle导入到HDFS

导入表的所有字段sqoop import --connect jdbc:oracle:thin:@192.168.1.100:1521:ORCL \--username SCOTT --password tiger \--table EMP -m 1; 查看执行结果：hadoop fs -cat /user/hadoop/EMP/part-m-000007369,S

2018-01-31 00:50:17 921

转载 hadoop fs:du统计hdfs文件（目录下文件）大小的用法

hadoop fs:du统计hdfs文件（目录下文件）大小的用法hadoop fs 更多用法，请参考官网：http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html以下是我的使用统计文件时使用的记录：[t@dv00938 ~]$ hadoop fs -ls /jc_rc/rc_hive_db/llcfp

2018-01-27 15:45:14 36410

转载 python 实现统计ftp服务器指定目录下文件夹数目、文件数目及所有文件大小本次主要为满足应用方核对上传到ftp服务器的文件是否缺漏。主要要求：指定目录下，文件夹数目/文件数目/所有文件大小

python 实现统计ftp服务器指定目录下文件夹数目、文件数目及所有文件大小本次主要为满足应用方核对上传到ftp服务器的文件是否缺漏。主要要求：指定目录下，文件夹数目/文件数目/所有文件大小，类似Windows如下功能：模块介绍： 1 from ftplib import FTP 2 ftp = FTP() #设置变量 3 ftp.set_debu

2018-01-27 15:43:10 1430

转载统计HDFS文件数量,大小,以及在某范围大小的文件数量

统计HDFS文件数量大小，小于20M文件数量hadoop fs -du -h / # 统计文件大小hadoop fs -count / # 统计文件数量，返回的数据是目录个数，文件个数，文件总计大小，输入路径hadoop fs -ls -R /path/data | grep ^- > ~/data.txt #统计所有文件的信息，过滤文件夹,只统计文件.因为使用ls -l 之后,可以看到文

2018-01-27 15:39:21 3508

转载 Python 字符串操作（string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割等）

去空格及特殊符号s.strip().lstrip().rstrip(',')复制字符串#strcpy(sStr1,sStr2)sStr1 = 'strcpy'sStr2 = sStr1sStr1 = 'strcpy2'print sStr2连接字符串#strcat(sStr1,sStr2)sStr1 = 'strcat'sStr2 = '

2018-01-04 21:16:26 229

转载 Python 去除列表中重复的元素

Python 去除列表中重复的元素比较容易记忆的是用内置的setl1 = ['b','c','d','b','c','a','a']l2 = list(set(l1))print l2 还有一种据说速度更快的，没测试过两者的速度差别l1 = ['b','c','d','b',

2018-01-04 01:34:04 348

转载 Pycharm中运行Python代码的几种方式

Pycharm中运行Python代码的几种方式在pycharm中的Python代码运行会出现各种奇葩的问题，比如，密码输入时不显示或没有提示，给我们带来一些麻烦，下面介绍几种代码运行的几种方式：一、直接运行（Run按钮或者快捷键shift+F10） 1.进入pychram主界面，输入代码后，直接Run就可以； 2.Termnal下运行.py文件

2018-01-04 00:28:51 43198

转载分析:windows下cmd默认的编码是ASCII编码 ,windows的中文环境下编码是GBK 方法一:在保存输出流保存的时候做一个对文字GBK编码,在输出到文件如下 [python] view

分析:windows下cmd默认的编码是ASCII编码 ,windows的中文环境下编码是GBK方法一:在保存输出流保存的时候做一个对文字GBK编码,在输出到文件如下[python] view plain copytitle = textVar.get() + ".txt" # 获取标题 con

2018-01-04 00:16:31 2059

转载 python 主函数输入

python 主函数输入看一段主函数调用函数的小程序： 1 import sys 2 def Fuc(): 3 print 'hello' 4 5 if __name__ == '__main__': 6 if len(sys.argv) != 3: 7 print 'Usage: python input_n

2018-01-04 00:15:06 1022

转载 Python读写文件

Python读写文件1.open使用open打开文件后一定要记得调用文件对象的close()方法。比如可以用try/finally语句来确保最后能关闭文件。file_object = open('thefile.txt')try: all_the_text = file_object.read( )finally: file_object.close

2018-01-04 00:07:07 232

转载 python文件读写小结

读文件打开一个文件用open()方法(open()返回一个文件对象，它是可迭代的)：>>> f = open('test.txt', 'r')r表示是文本文件，rb是二进制文件。（这个mode参数默认值就是r）如果文件不存在，open()函数就会抛出一个IOError的错误，并且给出错误码和详细的信息告诉你文件不存在：>>> f=open('test.t

2018-01-04 00:02:32 1843

转载 linux的nohup命令的用法。

linux的nohup命令的用法。在应用Unix/Linux时，我们一般想让某个程序在后台运行，于是我们将常会用 & 在程序结尾来让程序自动运行。比如我们要运行mysql在后台： /usr/local/mysql/bin/mysqld_safe –user=mysql &。可是有很多程序并不想mysqld一样，这样我们就需要nohup命令，怎样使用nohup命令呢？这里讲解

2018-01-04 00:00:08 164

转载 python 读取文件时报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multib

python 读取文件时报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multibyte sequencepython读取文件时提示"UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 2

2018-01-03 12:44:09 677

JHON07的博客