- 博客(27)
- 资源 (2)
- 收藏
- 关注
原创 测试数据生成工具datafaker
开源情况datafaker是笔者开发的一个大批量测试数据和流测试数据生成工具,兼容python2.7和python3.4+,欢迎下载使用。github地址为:https://github.com/gangly/datafaker文档同步更新在github工具产生背景在软件开发测试过程,经常需要测试数据。这些场景包括:后端开发新建表后,需要构造数据库测试数据,生成接口数据提供给前端使...
2019-03-30 20:36:58 16837 9
原创 如何快速部署分布式项目
fablinker是一个类似ansible开源自动化运维工具,在一台服务器上可管理控制多个远程主机。基于fabric开发,兼容python2.7、python3+。相对ansible和fabric,fablinker基于命令行交互式操作,使用起来更加方便快捷。使用前首先需要确保所有机器能用ssh连接。具体使用请查看应用场景章节。文档同步更新在github, https://github.c...
2019-10-10 11:29:58 2042
原创 Python 之禅
The Zen of Python, by Tim PetersPython之禅 by Tim PetersBeautiful is better than ugly.优美胜于丑陋(Python 以编写优美的代码为目标)Explicit is better than implicit.明了胜于晦涩(优美的代码应当是明了的,命名规范,风格相似)Simple is ...
2019-09-04 10:49:30 272
原创 数据监控和自动化数据测试工具beeper
数据部数据质量预警与自动化数据测试工具github: https://github.com/gangly/beeper一、Beeper产生原因Beeper就是当年的BP机,能发出哔哔的声音,也有通知、报警器的意思,这里用来作为数据质量预警工具的别名。作为数据开发,多数情况下需要每天自动检查数据质量是否有问题,有以下几方面需要关注:每天是否有数据,在检查时间点是否按时产出了数据数据是否完...
2019-03-30 23:20:48 1380
原创 多服务器运维工具fablinker
fablinker1.fablinker是什么fablinker是一个多服务器项目部署和管理的工具。兼容python2.7、python3+,用到fabric第三方库,在一台服务器上可管理控制多个远程主机。目前V0.01已开发完成。使用前首先需要确保所用的机器能用ssh连接。2.应用场景2.1 项目部署比如分布式项目部署在12台机器上,一旦代码更改,那么所有worker上的代码都...
2019-03-30 20:49:48 685
原创 Presto查询优化
简书同步发布:https://www.jianshu.com/p/f435ce79c966 Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。查询语言是类ANSI SQL语句。笔者在多个项目中用到Presto做即席查询,总结了一些优化措施。一、数据存储合理设置分区 与Hive类似,Presto会根据元信息读取分区数据,合理的分区能减少P
2018-01-17 09:53:25 8207 2
原创 no snappyjava in java.library.path
在使用alluxio的过程中遇到如题目中问题,因为我电脑是mac,解决方案如下: 1. 从maven center中下载snappy-java-1.1.1.7.jar 2. unzip解压在路径org/xerial/snappy/native/Mac/x86_64中找到libsnappyjava.jnilib 3. 修改名称:cp libsnappyjava.jnilib libsnappyj
2017-04-04 22:54:41 1080 1
原创 idea提示那些事
在用idea编程过程中会产生许多worning提示,细细查看这些提示,会得到许多好处: - 优化代码,解除潜在bug - 学习相关语言语法 现在把遇到的warning作总结如下。求Array大小时候建议用lengthReplace .size with .length on arrays and strings less This inspection reports array.size
2017-02-12 23:42:51 3264
原创 在spark中运行HiveContext
1.添加配置程序只需要读取hive配置文件hive-site.xml,不用hdfs-site.xml.若在ide中直接运行,可以将配置文件直接放在工程resources目录下一起打包,程序会自动到该目录下读取。 也可以spark-submit时在–files中设置hdfs路径
2017-02-12 19:42:44 3557
原创 hive中add jar运行报错
问题:在自己写好udf函数,编译成jar包,在hive命令行下执行, add jar udfs-1.0-SNAPSHOT.jar; CREATE TEMPORARY FUNCTION strlen AS 'com.pingan.pbear.udf.StrLen'; select name, strlen(name), score from stu order by score;上述代码涉及到o
2017-02-12 19:30:51 7219
原创 compiler mirror not found
在idea上编译spark项目的时候报错:[ERROR] error: error while loading , error in opening zip file[ERROR] error: scala.reflect.internal.MissingRequirementError: object scala.runtime in compiler mirror not found.
2016-12-22 15:08:30 1219
原创 saiku踩坑记录
1.源码编译saiku刚刚编译成功。有以下几个坑:1)将源码中pom.xml中更改的依赖有pdfbox-app,这个应该是pdfbox,版本号应该是2.0.0。2)要跳过测试,mvn clean install -DskipTests 3)如果报错中发现相关doc错误,不要生成文档:mvn中再加上-Dmaven.javadoc.skip=true
2016-06-25 17:58:07 1009
原创 saiku与kylin整合备忘录
为什么要整合?Kylin是通过离线预计算将Hive中事实表的各组合维度的值存储在Hbase中,在前端可实时展现。但是kylin的多维查询需要写SQL,对于不会写SQL的数据分析人员或者业务人员来说,OLAP交互并不是很友好,而且图表展示也不丰富。如果能将saiku和kylin整合,Mondrian是基于关系型数据库的ROLAP(现在也支持Hive了,但查询慢),Kylin是MOLAP,saik
2016-06-25 17:38:33 2723 3
原创 多服务器管理工具fablinker
1.fablinker是什么fablinker是本人自主开发的一个多服务器项目部署和管理的工具。基于python 2.7 ,用到fabric第三方库,在一台服务器上可管理控制多个远程主机,目前V0.01已开发完成。使用前提是多个服务器之前可以通过ssh互联。具体配置请在网上搜索。开源代码:https://github.com/gangly/fablinker
2016-02-26 11:33:13 1419
原创 PhantomJS网页截图
做数据展示时,网页上已经画出了各种直观漂亮的图形。但是给boss们发送邮件时需要清晰的数据图片。用js画不太方便,可选择截图。 1.安装PhantomJS, 可以在网上搜索按照过程。2.编写snap.js脚本3.在php脚本中调用 phantomjs snap.js url img_path top left width height
2016-02-26 11:24:12 995 1
原创 flaskr例子的运行
首先在flask的github中下载最新源代码。网址:https://github.com/mitsuhiko/flask按照flaskr教程读懂源代码:网址:http://dormousehole.readthedocs.org/en/latest/tutorial/index.html最后发现例子无法运行,需要改进三个地方:1.在flaskr.py文件中最后面添加i
2016-02-22 15:26:16 4887
转载 get & post
PHP中GET vs. POSTGET 和 POST 都创建数组(例如,array( key => value, key2 => value2, key3 => value3, ...))。此数组包含键/值对,其中的键是表单控件的名称,而值是来自用户的输入数据。GET 和 POST 被视作 $_GET 和 $_POST。它们是超全局变量,这意味着对它们的访问
2014-08-24 18:25:32 675
原创 eSpeak安装实录
http://wangyuxxx.iteye.com/blog/1851395这篇博客已经说的比较详细了,我只是补充一下我遇到的问题。eSpeak需要PortAudio库支持的,下载portaudio_v18.zip,编译过程中可能会遇到如下问题:1.$chmod +x configure$./configure错误:/bin/sh^M:损坏的解释器: 没有该文件或目录问题
2013-12-11 21:45:59 2393
原创 不带头节点的双向循环链表基本操作
笔试了NHN的试题,其中有道题是不带头结点的双向循环链表基本操作,创建,插入,删除,销毁。。。以前都是用带头节点的,用起来方便,结果笔试完了后才发现不带头节点的情况下很多没有考虑全面。。重新写了一下。。#include #include #include typedef struct Node{ int data; struct Node *prev; struct Nod
2013-10-16 16:09:38 1675
原创 常量字符串
在写代码的过程中遇到这么一个问题:char *str = "abc";char *A = str;char *B = str+1;printf("A:%c, B:%c\n", *A, *B);*A = 'c';*B = 'c';printf("%s\n", str);编译后运行报错:Press ENTER or type command to continueA:
2013-05-30 10:10:10 551
原创 free(): invalid
写KMP字符串匹配算法的时候,遇到malloc申请内存,free的时候报错:*** glibc detected *** ./strdel: free(): invalid next size (fast): 0x09868008 ***======= Backtrace: =========/lib/tls/i686/cmov/libc.so.6(+0x6b591)[0xcad591
2013-05-15 09:46:21 893
原创 网卡的混杂模式
混杂模式(Promiscuous Mode) 就是接收所有经过网卡的数据包,包括不是发给本机的包。默认情况下网卡只把发给本机的包(包括广播包)传递给上层程序,其它的包一律丢弃。简单的讲,混杂模式就是指网卡能接受所有通过它的数据流,不管是什么格式,什么地址的。事实上,计算机收到数据包后,由网络层进行判断,确定是递交上层(传输层),还是丢弃,还是递交下层(数据链路层、MAC子层)转发。 对于广
2013-03-06 16:57:39 812
转载 container_of宏定义分析
转载来自:http://www.cnitblog.com/puppypyb/archive/2008/08/20/48172.aspx一、#define offsetof(TYPE, MEMBER) ((size_t) & ((TYPE *)0)->MEMBER )1. ( (TYPE *)0 ) 将零转型为TYPE类型指针;2. ((TYPE *)0)->MEMBER 访问结构中
2013-03-03 20:04:01 418
转载 网卡
网络适配器又称网卡或网络接口卡(NIC),英文名NetworkInterfaceCard。它是使计算机联网的设备。平常所说的网卡就是将PC机和LAN连接的网络适配器。网卡(NIC) 插在计算机主板插槽中,负责将用户要传递的数据转换为网络上其它设备能够识别的格式,通过网络介质传输。它的主要技术参数为带宽、总线方式、电气接口方式等。它的基本功能为:从并行到串行的数据转换,包的装配和拆装,网络存取控制,
2013-03-02 17:21:14 762
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人