IBoyMan

行万里路 读万卷书 编万千代码

排序:
默认
按更新时间
按访问量

scrapy设置随机User-agent、scrapy爬取大量网页、设置爬虫请求并发数

      对于爬虫攻城狮而言,爬虫的最大敌人就是反爬虫。在多次请求网页时(爬取大量url时),避免被地方封锁掉,User-agent代理的随机跳变就成了反爬虫的的第一步也是必须的一步的拉。 一:设置随机User-agent(User-agent文件自行准备)     scrapy里怎么随机...

2018-07-29 12:06:10

阅读数:87

评论数:0

Spark实现SQL的count(*),count(distinct * *) 即pv、uv

自己上代码,如果不理解的地方,可以百度或留言import org.apache.spark.{SparkConf,SparkContext} /** * Created by zhang on 2018/6/29. */ object WordCount { def dealTime(...

2018-07-03 16:04:06

阅读数:262

评论数:0

Hive里实现行数据的拆分、一行转多行、行转列、explode使用

    在做数据转换、清洗的过程中,经常会对行进行拆分、一行数据拆分为多行数据,下面是简单的例子:    如图表里有如下数据:最终要得到结果如下:先用split进行分割得到一个数组,在用explode拆分数组。LATERAL VIEW explode(split(b,',')) zqm AS nu...

2018-06-04 11:00:08

阅读数:248

评论数:0

shell加python实现程序自动化控制

为做到数据的实时传输(实时:当前时间传输上一个小时的数据),shell用于控制整个流程,python用于处理数据。shell代码如下:#bin/bash ######### ## 笃笃学车4G运行脚本 ## 编写者:zhangqm ## 日期:2018-04-04 ## 调用方式:...

2018-05-14 10:23:09

阅读数:164

评论数:0

Pandas里groupby的应用

Groupby是pandas用于数据分析一个强大的动能函数,很多对数据的清洗、转换、聚合都需要用到。具体功能会一一介绍,博客也会慢慢更新。一:获取groupby分组后每组的具体数据获取分组数据:(每一个分组也是一个DF)...

2018-05-12 10:35:05

阅读数:53

评论数:0

pandas里applymap、apply、map、agg、groupby、自定义函数的使用

Pandas里三种调用函数应用的方法:                 1:apply作用于DF的列或行                 2:applymap作用于DF的所有元素                 3:map作用于Series的所有元素  agg函数很多情况下都是和groupby组合...

2018-05-10 18:13:33

阅读数:418

评论数:0

intellij的安装、intellij搭建scala环境

一:下载intellij可执行文件,本文用的是ideaIU-2016.3.exe二:双击exe文件开始安装,具体一系列操作如下图    1:        2:    3:4:5:6:去插件依照项目酌情考虑7:8:9:然后选择自己安装jdk的路径,最后就ok啦...

2018-04-28 13:36:07

阅读数:42

评论数:0

linux学习笔记

www.kernel.org:linux官网www.netcraft.com 看某一网站后台的服务器是什么操作系统。   在命令提示符下(shell)输入的内容对系统来说都是命令,系统会默认去环境变量PATH中找此命令所在的路径下的程序(文件),如果PATH没有给出路径会报“command not...

2018-04-18 21:13:33

阅读数:18

评论数:0

Mapreduce(MR)设置多个job的任务运行

          MapReduce多个job任务其本质原理就是job2任务依赖job1任务的返回结果即job1的输出路径是job2的输入路径。job2任务的启动依赖job1任务结束所返回的状态。        依据自己的实际经验:多个job的串行或并行触发,我认为还是分开写几个程序,用脚本控制...

2018-04-14 11:25:13

阅读数:253

评论数:3

MapReduce(MR)框架里shuffer过程中Partition的使用

Partitioner类:主要在Shuffle过程中按照Key值将中间结果分成R份,其中每份都有一个Reduce去负责。使用的时候可以通过job.setPartitionerClass()方法进行设置,实现getPartition函数,默认的使用hashPartitioner类。举一个简单的例子:...

2018-04-12 13:47:20

阅读数:32

评论数:0

Mapreduce(MR)读取配置文件的三种方式,遍历HDFS目录文件

第一种方式:    如果配置文件数据不是很大,可以放在本地,然后在打包进去,代码如下:第二种:    如果配置文件数据比较大,可以传到HDFS里,以传参的形式加载,代码:这种方式需要在Main里设置参数位置,核心代码如图:第三种: 配置文件已经在HDFS上存在(以part文件形式存在,第二种是传上...

2018-03-13 14:03:58

阅读数:679

评论数:0

linux 里awk的使用

统计文本数据列字段有多少种:more 1.txt |awk -F "\t" '{print NF}'|sort|uniq|more输出最后一个字段的内容:more 1.txt |awk -F "\t" '{print $NF}...

2018-03-09 15:05:05

阅读数:25

评论数:0

python pandas 实现SQl的count(*),count(distinct **)

实现也非常简单,不过多啰嗦,见代码注释:pv uv 代指 select host,count(*),count(distinct ad) from table group by ;# -*- coding:utf-8 -*- import pandas as pd from datetime im...

2018-03-09 10:43:59

阅读数:1316

评论数:0

Python解析、提取url关键字

解析url用的类库:    python2版本:  from urlparse import urlparse import urllibpython3版本: from urllib.parse import urlparse import urllib.reque...

2018-03-08 13:12:14

阅读数:2075

评论数:0

python处理大数据文件,set、enumerate使用,python传参,获取文件路径

### enumerate(ad_set,start=1)### start=1:指定索引起始值#-*- coding:utf-8 -*- #ad转家庭、政企ad #编写者:zhangqm #日期:20170810 #功能:分别找出家庭,政企用户,家庭的ad转jzad,政企ad重新编号且相...

2018-03-05 10:59:47

阅读数:139

评论数:0

shell里expect自动输入密码

通常在写shell时,使用scp、ssh时总要手动输入密码,是一件很烦人的事情,使用expect可以免手动数据的麻烦。有如下脚本里需要使用expect调到另一台服务器里做其他操作,代码如图:主要代码在下图73行#bin/bash ######### ## Gocapture项目需求的启动脚本 ...

2018-03-02 10:11:53

阅读数:248

评论数:0

python进行拆分大文件

python按指定行数把大文件进行拆分如图大文件有7000多万行,大小为16G需要拆分成多个200万行的小文件代码如下:# -*- coding:utf-8 -*- from datetime import datetime def Main(): source_dir = '/data...

2018-03-02 09:25:42

阅读数:1052

评论数:0

SQL实现相邻两行数据的加减乘除

SQL实现表里数据按一定顺序排序后,按某几个字段分组后相邻两行数据实现加减乘除运算。思路:1:先把表数据分组排序后打上序号标签2:根据需求把标签字段加/减一上代码:select distinct a.phone,from_unixtime(cast(floor(a.ts/1000) as big...

2018-03-01 09:45:08

阅读数:1524

评论数:0

SQL里concat_ws()、collect_set()的使用

concat_ws(合并时的分隔符,合并字段1,字段2。。。)collect_set(字段):根据某个字段分组后,把分在一组的数据合并在一起,默认分隔符','eg:select jzad,os_type,concat_ws(',',collect_set(host)) from (sele...

2018-03-01 09:20:30

阅读数:476

评论数:0

shell自定义函数和调用

本文主要是为了方便自己以后查找相关知识使用!#!bin/bash ##### ## 编写:zhangqm ## 日期:2018-01-30 ## 简述:胶子月程序流程 ## 调用方式:nohup sh jz_process.sh click_start_time click_end_time ad...

2018-02-28 21:47:21

阅读数:174

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭