自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

自清的soft专栏

积累软件技术知识,备忘

  • 博客(34)
  • 收藏
  • 关注

原创 python做类似sql的流处理(0.8)

有时需要对结构化的文件进行处理,如果用sql可能方便些,但需要导入数据库、hive,而且有时sql不能满足时又需要用语言开发。用python做了个能实现类似sql功能的包,通过对数据的一步步处理实现想要的功能,如果基础功能不能满足需求,在此基础上开发也方便些。基于此包在hive中做查询也可以实现对数据的处理。用这个流处理可以把拉数据、推数据统一起来。假设pvlog1

2015-02-11 19:51:44 1038

原创 python instream

让python程序中每个数据处理过程专注自己的逻辑,尽量不受输入输出的影响。参考了pipe包。#!/usr/bin/python#coding:utf-8import sysimport itertools''' 处理流程模仿 shell 流处理 各个处理环节用 | 符号连接 函数名模仿 sql 语句 (数据处理有顺序相关的缺省认为已排序,未排序的需先用sort函数

2015-01-23 16:20:25 1297

原创 python根据key对流做join

def keyjoin(instreams,keyindexs=None): '''把各流进行关联,instreams是流数组,每个流中的数据类型为list或tuple indexss是用于把流数据关联在一起的字段索引,每个流对应一个索引数组''' if not keyindexs: keyindexs = [ () for s in instreams ]

2015-01-09 16:20:11 541

原创 python实现类似awk的简单功能

命令行的awk很方便,但灵活一点

2014-11-21 13:03:15 11253

原创 python对流进行join

对流的合并,有时各个流的进度需要根据数据的不同而定。def joinstreams(instreams,getnext=lambda x:x): '''把各流进行关联,instreams是流数组, getnext函数决定从哪些流中取下一批数据,输入参数为流编号,输出应为需要从哪些流编号读数据的数组''' data = [ None for s in instreams

2014-11-21 12:00:34 607

原创 python推数据及流处理扩展

python对于“流”的处理好像推荐是采用generator方式,这种方式

2014-11-10 16:37:35 3490

原创 python协程代理实现有环的协程间消息传递

python协程是个不错的东东,

2014-11-08 16:16:49 801

原创 python实现多个协程协作

import sysfrom collections import dequefrom enum import Enum#其他文件import本模块时需要from cowork import cowork,MessageTypeMessageType = Enum('MessageType', 'StartWorking ArriveMessage RequestMessage Clos

2014-10-26 15:30:34 798

原创 scala的动态类实现

scala 2.10开始支持动态类型,做个类

2014-07-19 18:03:47 2027

原创 scala实现配置文件的合并

scala实现合并配置文件import scala.collection.mutable.LinkedHashMapobject CombineConfigration { val debug = false var coverOption = "-cover"; var ignoreOption = "-ignore"; var isCover = tru

2014-07-17 16:56:03 1863

原创 spark定制之七:解决spark 1.0.1 import问题

spark-1.0.1\repl\src\main\scala\org\apache\spark\repl、

2014-07-14 19:47:57 1176

原创 spark定制之六:sql版start.scala

定制spark让sql更简单,上个版本的start.scala用的是HiveContext,这个是SQLContext的,不需编译。

2014-07-13 10:20:28 1308

原创 spark定制之五:使用说明

在spark-shell中可以定制成接近shark的操作,让熟悉sql的人轻松上手。

2014-07-10 09:13:00 1684

原创 hive数据表结构导出到文件

通过hive的desc命令把数据表字段写到文件中,方便外部数据处理。

2014-07-09 10:52:39 5215 1

原创 spark定制之四:完整的start.scala

从HDFS中读入,定义内存表"create table sometable (name string,age int,weight double)" from "hdfs:/test/testperson"查询vi"select * from testperson" hqlsaveto "somelocalfile"

2014-07-08 16:42:03 1177 1

原创 spark定制之三:MySchemaRDD

org.apache.spark.repl.Main.interp.command("""class MySchemaRDD(rdd:org.apache.spark.sql.SchemaRDD) extends java.io.Serializable { def go() = { var startstr = "" var endstr = RECO

2014-07-08 16:31:31 1066

原创 spark定制之二:start.scala中的DSL

通过类的隐式转换可以让命令看qild

2014-07-08 16:28:33 1563

原创 spark定制之一:shell启动

spark1.0中集成了HiveContext,但对于sql的人来说

2014-07-08 16:17:10 923

转载 Apache Spark源码走读之2:Job的提交与运行

http://database.51cto.com/art/201407/444558.htm

2014-07-05 23:37:28 789

原创 shell数组排序、二分查找

偶尔会用类似java的map或python的字典的数据结构,

2014-07-05 19:11:32 2270

原创 shell执行scala文件脚本

#!/bin/bashsrcfile="$1"if [ $# -lt 1 ] || [ "${srcfile}" == "" ]; then  echo need at least one parameter for the scala source file to run >&2  exit 1fishiftname=${srcfile%.*}

2014-07-03 15:35:09 2342

原创 shell字符分隔

取第一个匹配的字符分隔key=${line%%=*}value=${line#*=}name=${file%.*}ext=${file##*.}

2014-07-03 14:49:19 902

原创 shell根据配置文件调用不同程序

如run scala启动配置文件中定义好的scala路径中的scala

2014-07-03 10:05:19 388

原创 shell根据模板创建源程序

create XXX.py时用template.py创建初始的python脚本同样可以创建java、scala、shelligs文件

2014-07-03 10:00:13 653

原创 awk数据处理的几个函数

awk实现distinct、count函数

2014-07-03 09:56:11 696

原创 shell字符处理的几个函数

字符处理函数

2014-07-03 09:53:29 382

原创 hive中用java实现的udaf做线性回归

add jar some.jar;create temporary function lr as'com.autohome.hive.LineRegressUdaf';

2014-07-03 09:43:54 1941

原创 用java写hive的rownumber函数

hive支持java写udf、udaf、udtf,用udf实现

2014-07-03 09:35:10 871

原创 python不安装pymssql仅使用so访问sqlserver

cp ../pymssql/*.p* .    # 复制python、cython文件cp ../pymssql/*.h .     # 复制c头文件cp ../pymssql/freetds/nix_64/include/*.h .  # 复制库头文件cp ../pymssql/freetds/nix_64/lib/*.a .      # 复制库文件cython pymss

2014-07-03 09:22:27 611

原创 hive中用python脚本做小表的关联

forhive.py目前只支持两个函数memjoin读入数据文件到内存,与hive中的数据表进行join,需要7个参数,如果关联多个文件则7+6x个参数#   第一个参数 tabledefinefile 文件中需给出数据表的定义,数据表名称 : 字段名称1,>字段名称2,...,字段名称n,参考tabledef.txt,数据表名称可以是后面文件名,如果不完全一样文件路径需要包含数据

2014-07-03 09:12:18 903

原创 hadoop用job文件方式提交任务

hadoop job命令支持通过xml文件的方式提交任务。命令:hadoop job -libjars some.jar -submit testjob.xmluseroverlap.jar是实现了Mapper、Reducer等的jar包,testjob.xml是作业配置文件。例子在74的/data/hydata/mapreduce/useroverlapj

2014-07-03 08:34:38 1416

原创 hadoop不同版本间文件复制

bin/hadoop distcp -update -skipcrccheck hftp://XXX.XXX.XXX.XXX:50070/home/huyong/diceex/testpv/* hdfs://192.168.102.45:8020/test/testpv

2014-07-03 08:27:33 497

原创 sql on RDD字段数受限22个

spark1.0支持基于RDD的sql,如果用case class的方式

2014-07-03 08:22:59 1619

原创 shark等待文件死锁问题

多个shark进程访问同一路径会出现死锁问题

2014-07-03 06:40:48 1060

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除