自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

IBoyMan

行万里路 读万卷书 编万千代码

  • 博客(9)
  • 收藏
  • 关注

原创 Mapreduce(MR)读取配置文件的三种方式,遍历HDFS目录文件

第一种方式:    如果配置文件数据不是很大,可以放在本地,然后在打包进去,代码如下:第二种:    如果配置文件数据比较大,可以传到HDFS里,以传参的形式加载,代码:这种方式需要在Main里设置参数位置,核心代码如图:第三种: 配置文件已经在HDFS上存在(以part文件形式存在,第二种是传上去的文件不是part格式,比如txt形式),以传参的形式加载,代码:这种方式也要在Main设置参数的位...

2018-03-13 14:03:58 7837

原创 linux 里awk的使用

统计文本数据列字段有多少种:more 1.txt |awk -F "\t" '{print NF}'|sort|uniq|more输出最后一个字段的内容:more 1.txt |awk -F "\t" '{print $NF}'|more按列文本某列求总和:cat 1.txt | awk -F "\t" '{sum += $7};END {print sum}' |less按口径筛选数据:cat ...

2018-03-09 15:05:05 264

原创 python pandas 实现SQl的count(*),count(distinct **)

实现也非常简单,不过多啰嗦,见代码注释:pv uv 代指 select host,count(*),count(distinct ad) from table group by ;# -*- coding:utf-8 -*-import pandas as pdfrom datetime import datetimedef Main(): print("开始。。。。。...

2018-03-09 10:43:59 17243

原创 Python解析、提取url关键字

解析url用的类库:    python2版本:  from urlparse import urlparse import urllibpython3版本: from urllib.parse import urlparse import urllib.request     研究了不同的url规则发现:只要在搜索关键字是用=嫁接的,查询的关键在解析后的query...

2018-03-08 13:12:14 9272

原创 python处理大数据文件,set、enumerate使用,python传参,获取文件路径

### enumerate(ad_set,start=1)### start=1:指定索引起始值#-*- coding:utf-8 -*-#唯一号码转家庭、非家庭#编写者:zqm#日期:20170810#功能:分别找出家庭,非家庭用户,家庭的编号转jz编号,非家庭重新编号且相同编号相同#####################################...

2018-03-05 10:59:47 1212

原创 shell里expect自动输入密码

通常在写shell时,使用scp、ssh时总要手动输入密码,是一件很烦人的事情,使用expect可以免手动数据的麻烦。有如下脚本里需要使用expect调到另一台服务器里做其他操作,代码如图:主要代码在下图73行#bin/bash########### GP项目需求的启动脚本## 编写者:zqm## 日期:2018-02-09## 调用方式:nohup sh ...

2018-03-02 10:11:53 3216

原创 python进行拆分大文件

python按指定行数把大文件进行拆分如图大文件有7000多万行,大小为16G需要拆分成多个200万行的小文件代码如下:# -*- coding:utf-8 -*-from datetime import datetimedef Main(): source_dir = '/jz_yuanshi_list0206.txt' target_dir = '/...

2018-03-02 09:25:42 18834 12

原创 SQL实现相邻两行数据的加减乘除

SQL实现表里数据按一定顺序排序后,按某几个字段分组后相邻两行数据实现加减乘除运算。思路:1:先把表数据分组排序后打上序号标签2:根据需求把标签字段加/减一上代码:select distinct a.phone,from_unixtime(cast(floor(a.ts/1000) as bigint),'yyyyMMdd HH:mm:ss'),chafrom table ajoin...

2018-03-01 09:45:08 24701

原创 SQL里concat_ws()、collect_set()的使用

concat_ws(合并时的分隔符,合并字段1,字段2。。。)collect_set(字段):根据某个字段分组后,把分在一组的数据合并在一起,默认分隔符','eg:select jzad,os_type,concat_ws(',',collect_set(host))from (select jzad,os_type,host,count(*),row_number() over(pa...

2018-03-01 09:20:30 6399

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除