python grep_使用python操作hdfs,并grep想要的数据

代码如下:

import subprocess

for day in range(24, 30):

for h in range(0, 24):

filename = "tls-metadata-2018-10-%02d-%02d.txt" % (day, h)

cmd = "hdfs dfs -text /data/2018/10/%02d/%02d/*.snappy" % (day, h)

print(cmd)

#cmd = "cat *.py"

cmd = subprocess.Popen(cmd, shell=True, stdout=subprocess.PIPE)

f = open(filename, "w")

for line in cmd.stdout:

try:

arr = line.split("^")

if len(arr) >= 120 and arr[6] == "6" and arr[25] == "SSL" and arr[107]:

#print(line)

f.write("^".join(arr[:32]) + "^" + arr[95] + "^" + "^".join(arr[105:119])+ "\n")

except Exception as e:

print(e, "fuck error", line)

f.close()

#import sys

#sys.exit(0)

Python操作hdfs

Python直接操作hdfs,包括追加数据文件到hdfs文件 #!coding:utf-8 import sys from hdfs.client import Client #设置utf-8模式 r ...

python操作三大主流数据库(14)python操作redis之新闻项目实战②新闻数据的展示及修改、删除操作

python操作三大主流数据库(14)python操作redis之新闻项目实战②新闻数据的展示及修改.删除操作 项目目录: ├── flask_redis_news.py ├── forms.py ├ ...

详解python操作生成excel表格,并且填充数据

最近在研究python操作excel表格的问题,首先读取excel表格觉得平时用的多,不怎么有难度,就是pyhon生成excel表格的时候,平时不怎么用,所以重点研究了一下,现总结如下: 1.首先用到 ...

python操作三大主流数据库(13)python操作redis之新闻项目实战①新闻数据的导入

1.新闻处理页面redis_news.py #coding:utf-8 import math import redis class RedisNews(object): def __init__(s ...

hadoop 》》 django 简单操作hdfs 语句

>> from django.shortcuts import render # Create your views here. from hdfs.client import Clien ...

Python 操作集合

Python 操作集合 集合,set,主要用于数据的关系测试和去重处理,和列表类似,可以存储数据,列表中可以存储重复的数据,但是如果转化为集合之后,数据就会进行去重,然后保留唯一值:关系测试就是求多个 ...

Python操作 Memcache、Redis、RabbitMQ、SQLAlchemy

Memcached Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载.它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高动态.数据库驱动网站的速度 ...

python运维开发(十一)----python操作缓存memcache、redis

内容目录: 缓存 memcache redis memcache Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载.它通过在内存中缓存数据和对象来减少读取数 ...

Python 之路:Python操作 RabbitMQ、Redis、Memcache、SQLAlchemy

一.Memcached Memcached是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负债.它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高动态.数据库驱动网站的速 ...

随机推荐

html+css笔记

文档结构 1.html文档结构 ①文档类型声明 严格型(标准模式):       HTML5 XHTML 1.0:UbL ...

AngularJS之开发组件的一些思路

欢迎大家指导与讨论 : ) 一 .前言 由于笔者水平有限,在这里只是分享自己开发组件的一些思路~ 摘要:无UI组件类.有UI组件类.有UI组件类型2.欢迎拍砖吐槽 O(∩_∩)O 二 .无UI组件类 ...

IIs安装&发布&解决遇到的问题

IIS安装: IIS发布: 1.添加网站: 2.将发布的文件,copy到该网站的目录下 3. 刷新,文件显示出来,将其"转换为应用程序” => 4.在应用程序池中找到该网站相应的程序池 ...

HDU 1285 确定比赛名次 拓扑排序模板题

http://acm.hdu.edu.cn/showproblem.php?pid=1285 #include #include #inc ...

僵尸进程的产生和避免,如何kill杀掉linux系统中的僵尸defunct进程

在 Unix系统管理中,当用ps命令观察进程的执行状态时,经常看到某些进程的状态栏为defunct,这就是所谓的"僵尸"进程."僵尸"进程是一个早已 死亡的进程 ...

GAE初探-一鼻子灰

考虑到GAE可以一定条件下免费发布app,再加上之前有潜在客户需要用到GAE. 遂决定了解一番. 以比较熟悉的django作为切入点, 1. 首先安装 GAE-launcher,似乎没有太大问题 2. ...

leetcode 24

链表操作的,要注意标记头结点和边界问题. 代码如下: ListNode *swapPairs(ListNode *head) { if(head==NULL||head->next==NULL) ...

Jedis 操作

http://www.cnblogs.com/liuling/p/2014-4-19-04.html

如何修改vsftpd的默认根目录/var/ftp/pub到另一个目录?

修改ftp的根目录只要修改/etc/vsftpd/vsftpd.conf文件即可: 加入如下几行: local_root=/var/www/html chroot_local_user=YES ano ...

宝塔面板设置腾迅COS自动备份网站

之前写了如何配置腾迅云COS并挂载到服务器中,今天看到宝塔面板中有腾迅云COS的插件,不过研究了下,只是将COS绑定在宝塔面板中,不能自动备份,需要用到宝塔的计划任务功能 1.下载腾迅云COS插件 2 ...

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值