当前搜索:

linux学习笔记

www.kernel.org:linux官网www.netcraft.com 看某一网站后台的服务器是什么操作系统。   在命令提示符下(shell)输入的内容对系统来说都是命令,系统会默认去环境变量PATH中找此命令所在的路径下的程序(文件),如果PATH没有给出路径会报“command not...
阅读(4) 评论(0)

Mapreduce(MR)设置多个job的任务运行

          MapReduce多个job任务其本质原理就是job2任务依赖job1任务的返回结果即job1的输出路径是job2的输入路径。job2任务的启动依赖job1任务结束所返回的状态。        依据自己的实际经验:多个job的串行或并行触发,我认为还是分开写几个程序,用脚本控制...
阅读(74) 评论(0)

MapReduce(MR)框架里shuffer过程中Partition的使用

Partitioner类:主要在Shuffle过程中按照Key值将中间结果分成R份,其中每份都有一个Reduce去负责。使用的时候可以通过job.setPartitionerClass()方法进行设置,实现getPartition函数,默认的使用hashPartitioner类。举一个简单的例子:...
阅读(10) 评论(0)

Mapreduce(MR)读取配置文件的两种方式

第一种方式:    如果配置文件数据不是很大,可以放在本地,然后在打包进去,代码如下:第二种:    如果配置文件数据比较大,可以传到HDFS里,以传参的形式加载,代码:这种方式需要在Main里设置参数位置,核心代码如图:...
阅读(69) 评论(0)

linux 里awk的使用

统计文本数据列字段有多少种:more 1.txt |awk -F "\t" '{print NF}'|sort|uniq|more按列文本某列求总和:cat 1.txt | awk -F "\t" '{sum += $7};E...
阅读(10) 评论(0)

python pandas 实现SQl的count(*),count(distinct **)

实现也非常简单,不过多啰嗦,见代码注释:pv uv 代指 select host,count(*),count(distinct ad) from table group by ;# -*- coding:utf-8 -*- import pandas as pd from datetime im...
阅读(99) 评论(0)

Python解析、提取url关键字

解析url用的类库:    python2版本:  from urlparse import urlparse import urllibpython3版本: from urllib.parse import urlparse import urllib.reque...
阅读(112) 评论(0)

python处理大数据文件,set、enumerate使用,python传参,获取文件路径

### enumerate(ad_set,start=1)### start=1:指定索引起始值#-*- coding:utf-8 -*- #ad转家庭、政企ad #编写者:zhangqm #日期:20170810 #功能:分别找出家庭,政企用户,家庭的ad转jzad,政企ad重新编号且相...
阅读(37) 评论(0)

shell里expect自动输入密码

通常在写shell时,使用scp、ssh时总要手动输入密码,是一件很烦人的事情,使用expect可以免手动数据的麻烦。有如下脚本里需要使用expect调到另一台服务器里做其他操作,代码如图:主要代码在下图73行#bin/bash ######### ## Gocapture项目需求的启动脚本 ...
阅读(43) 评论(0)

python进行拆分大文件

python按指定行数把大文件进行拆分如图大文件有7000多万行,大小为16G需要拆分成多个200万行的小文件代码如下:# -*- coding:utf-8 -*- from datetime import datetime def Main(): source_dir = '/data...
阅读(19) 评论(0)

SQL实现相邻两行数据的加减乘除

SQL实现表里数据按一定顺序排序后,按某几个字段分组后相邻两行数据实现加减乘除运算。思路:1:先把表数据分组排序后打上序号标签2:根据需求把标签字段加/减一上代码:select distinct a.phone,from_unixtime(cast(floor(a.ts/1000) as big...
阅读(180) 评论(0)

SQL里concat_ws()、collect_set()的使用

concat_ws(合并时的分隔符,合并字段1,字段2。。。)collect_set(字段):根据某个字段分组后,把分在一组的数据合并在一起,默认分隔符','eg:select jzad,os_type,concat_ws(',',collect_set(host)) from (sele...
阅读(25) 评论(0)

shell自定义函数和调用

本文主要是为了方便自己以后查找相关知识使用!#!bin/bash ##### ## 编写:zhangqm ## 日期:2018-01-30 ## 简述:胶子月程序流程 ## 调用方式:nohup sh jz_process.sh click_start_time click_end_time ad...
阅读(36) 评论(0)

python读写文件去重、RE、set的使用

Python读写文件是去重存储数据,RE、set的使用# -*- coding:utf-8 -*- from datetime import datetime import re def Main(): sourcr_dir = '/data/u_lx_data/fudan/muyi...
阅读(53) 评论(0)

shell获得某月最后一天

代码如下:daytime=20180227## 获取本月 month=${daytime:0:6}## 当月的最后一天monthEndday=${month}$(cal ${daytime:4:2} ${daytime:0:4}|perl -0nle 'print+(split)[-1]')ech...
阅读(70) 评论(0)

pandas里map、lambda、merge的使用

pandas里map、lambda、merge的使用注意:map()为Series的函数,DataFrame不能使用,DataFrame用applymap()# -*- coding:utf-8 -*- from datetime import datetime import pandas as...
阅读(56) 评论(0)

python、pandas文件合并、数据去重

目录下有如图60个txt文件,每个txt文件里的数据大概有7000万行目的:把每个txt文件里的数据去重后合并60个文件为一个总文件,然后把总文件里的数据按第一列、第二列分组第三列求去重后出现的次数每个文件的内容如下:代码如下:# -*- coding:utf-8 -*- from datet...
阅读(124) 评论(0)
    个人资料
    持之以恒
    等级:
    访问量: 1004
    积分: 176
    排名: 100万+
    文章存档