python
文章平均质量分 76
Cumu_
这个作者很懒,什么都没留下…
展开
-
[Python] 从ip138网站爬取ip所处地点
1. 首先从纯真ip下载最新ip数据,地址:http://www.cz88.net/,数据格式是这样的0.0.0.0 0.255.255.255 IANA保留地址 CZ88.NET1.0.0.0 1.0.0.255 澳大利亚 CZ88.NET1.0.1.0 1.0.3.255 福建省 电信1.0.4.0 1.0.7.255 澳大利亚 CZ88.NET原创 2014-06-05 10:35:07 · 6213 阅读 · 1 评论 -
[Python] 根据IP获取位置信息
1. 下载纯真ip数据,地址:http://www.cz88.net/,数据格式原创 2014-06-05 10:54:29 · 5983 阅读 · 3 评论 -
Python+Hadoop Streaming实现MapReduce(如何给map和reduce的脚本传递参数)
1. 上一篇我们提到用python 和 hadoop streaming的方式写mapreduce,那么我们怎么向map和reduce的脚本传递参数呢,本来着重讲这个2. 我们知道用java写mapreduce的时候可以传参数给map或者reduce,具体的就是用Configuration去set值,然后在map或者reduce端用get进行获取,这个就不多说了,不是本文重点3. 不多原创 2015-01-15 19:53:40 · 7123 阅读 · 1 评论 -
python利用多核CPU实现mapreduce
1. 最近公司用有个比较奇怪的需求,需要在流水中查找某一条符合条件的流水记录,记录是在hdfs上的,按天存在文件中,但是文件都比较大,每天大概是25G的流水数据,现在提供刷卡回执单去查找该消费记录在我们hdfs上的对应的记录,从而可以找到某个信息(不能说是哪个。。。。)2. 刷卡回执单我们可以找到卡号前6位、后四位,消费的时间,消费的金额,最初我是用管道来一行行排除的,就是cat xxx |原创 2015-01-19 20:36:49 · 3397 阅读 · 0 评论 -
学习用pyhon写hive udf
1. 最近有个需求是找出一批一年内每个月连续交易额超过10000元的商户,经过hive的一些操作最后数据如下(已省略不需要的字段): m, p, consume, cnt m和p唯一标记商户,consume是12个月的交易额(逗号分割),cnt不用管2. 分析得知用hive原生的一些函数不好处理,那么想到了udf,本来想用java写的,但是java有太多依赖包了,刚好在学python原创 2015-01-20 20:04:54 · 10559 阅读 · 0 评论 -
Python+Hadoop Streaming实现MapReduce(word count)
1. hadoop本身是用java写的,所以用java写mapreduce是比较合适的,然而hadoop提供了Streaming的方式,让很多语言可以来写mapreduce,下面就介绍如何用python写一个mapreduce程序,我们就从最简单的word count写起吧2. word count是比较简单的,所以我们直接上代码,3. map.py#!/usr/bin/env pyt原创 2015-01-15 19:39:49 · 10237 阅读 · 1 评论