叫我小名-CSDN博客

原创测试数据生成工具datafaker

开源情况datafaker是笔者开发的一个大批量测试数据和流测试数据生成工具，兼容python2.7和python3.4+，欢迎下载使用。github地址为：https://github.com/gangly/datafaker文档同步更新在github工具产生背景在软件开发测试过程，经常需要测试数据。这些场景包括：后端开发新建表后，需要构造数据库测试数据，生成接口数据提供给前端使...

2019-03-30 20:36:58 17229 9

原创如何快速部署分布式项目

fablinker是一个类似ansible开源自动化运维工具，在一台服务器上可管理控制多个远程主机。基于fabric开发，兼容python2.7、python3+。相对ansible和fabric，fablinker基于命令行交互式操作，使用起来更加方便快捷。使用前首先需要确保所有机器能用ssh连接。具体使用请查看应用场景章节。文档同步更新在github, https://github.c...

2019-10-10 11:29:58 2118

原创 Python 之禅

The Zen of Python, by Tim PetersPython之禅 by Tim PetersBeautiful is better than ugly.优美胜于丑陋（Python 以编写优美的代码为目标）Explicit is better than implicit.明了胜于晦涩（优美的代码应当是明了的，命名规范，风格相似）Simple is ...

2019-09-04 10:49:30 307

原创数据监控和自动化数据测试工具beeper

数据部数据质量预警与自动化数据测试工具github: https://github.com/gangly/beeper一、Beeper产生原因Beeper就是当年的BP机，能发出哔哔的声音，也有通知、报警器的意思，这里用来作为数据质量预警工具的别名。作为数据开发，多数情况下需要每天自动检查数据质量是否有问题，有以下几方面需要关注：每天是否有数据，在检查时间点是否按时产出了数据数据是否完...

2019-03-30 23:20:48 1578

原创多服务器运维工具fablinker

fablinker1.fablinker是什么fablinker是一个多服务器项目部署和管理的工具。兼容python2.7、python3+，用到fabric第三方库，在一台服务器上可管理控制多个远程主机。目前V0.01已开发完成。使用前首先需要确保所用的机器能用ssh连接。2.应用场景2.1 项目部署比如分布式项目部署在12台机器上，一旦代码更改，那么所有worker上的代码都...

2019-03-30 20:49:48 765

原创 Presto查询优化

简书同步发布：https://www.jianshu.com/p/f435ce79c966 Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。查询语言是类ANSI SQL语句。笔者在多个项目中用到Presto做即席查询，总结了一些优化措施。一、数据存储合理设置分区与Hive类似，Presto会根据元信息读取分区数据，合理的分区能减少P

2018-01-17 09:53:25 8358

原创 no snappyjava in java.library.path

在使用alluxio的过程中遇到如题目中问题，因为我电脑是mac，解决方案如下： 1. 从maven center中下载snappy-java-1.1.1.7.jar 2. unzip解压在路径org/xerial/snappy/native/Mac/x86_64中找到libsnappyjava.jnilib 3. 修改名称：cp libsnappyjava.jnilib libsnappyj

2017-04-04 22:54:41 1142

原创 idea提示那些事

在用idea编程过程中会产生许多worning提示，细细查看这些提示，会得到许多好处： - 优化代码，解除潜在bug - 学习相关语言语法现在把遇到的warning作总结如下。求Array大小时候建议用lengthReplace .size with .length on arrays and strings less This inspection reports array.size

2017-02-12 23:42:51 3330

原创在spark中运行HiveContext

1.添加配置程序只需要读取hive配置文件hive-site.xml，不用hdfs-site.xml.若在ide中直接运行，可以将配置文件直接放在工程resources目录下一起打包，程序会自动到该目录下读取。也可以spark-submit时在–files中设置hdfs路径

2017-02-12 19:42:44 3623

原创 hive中add jar运行报错

问题：在自己写好udf函数，编译成jar包，在hive命令行下执行， add jar udfs-1.0-SNAPSHOT.jar; CREATE TEMPORARY FUNCTION strlen AS 'com.pingan.pbear.udf.StrLen'; select name, strlen(name), score from stu order by score;上述代码涉及到o

2017-02-12 19:30:51 7348

原创 compiler mirror not found

在idea上编译spark项目的时候报错：[ERROR] error: error while loading , error in opening zip file[ERROR] error: scala.reflect.internal.MissingRequirementError: object scala.runtime in compiler mirror not found.

2016-12-22 15:08:30 1310

原创 saiku踩坑记录

1.源码编译saiku刚刚编译成功。有以下几个坑：1）将源码中pom.xml中更改的依赖有pdfbox-app，这个应该是pdfbox，版本号应该是2.0.0。2）要跳过测试，mvn clean install -DskipTests 3）如果报错中发现相关doc错误，不要生成文档：mvn中再加上-Dmaven.javadoc.skip=true

2016-06-25 17:58:07 1049

原创 saiku与kylin整合备忘录

为什么要整合？Kylin是通过离线预计算将Hive中事实表的各组合维度的值存储在Hbase中，在前端可实时展现。但是kylin的多维查询需要写SQL，对于不会写SQL的数据分析人员或者业务人员来说，OLAP交互并不是很友好，而且图表展示也不丰富。如果能将saiku和kylin整合，Mondrian是基于关系型数据库的ROLAP（现在也支持Hive了，但查询慢），Kylin是MOLAP，saik

2016-06-25 17:38:33 2781 1

原创多服务器管理工具fablinker

1.fablinker是什么fablinker是本人自主开发的一个多服务器项目部署和管理的工具。基于python 2.7 ，用到fabric第三方库，在一台服务器上可管理控制多个远程主机，目前V0.01已开发完成。使用前提是多个服务器之前可以通过ssh互联。具体配置请在网上搜索。开源代码：https://github.com/gangly/fablinker

2016-02-26 11:33:13 1493

原创 PhantomJS网页截图

做数据展示时，网页上已经画出了各种直观漂亮的图形。但是给boss们发送邮件时需要清晰的数据图片。用js画不太方便，可选择截图。 1.安装PhantomJS，可以在网上搜索按照过程。2.编写snap.js脚本3.在php脚本中调用 phantomjs snap.js url img_path top left width height

2016-02-26 11:24:12 1060 1

原创 flaskr例子的运行

首先在flask的github中下载最新源代码。网址：https://github.com/mitsuhiko/flask按照flaskr教程读懂源代码：网址：http://dormousehole.readthedocs.org/en/latest/tutorial/index.html最后发现例子无法运行，需要改进三个地方：1.在flaskr.py文件中最后面添加i

2016-02-22 15:26:16 4949

原创 ADO连接SQL SERVER的两种方式

数据库在本地，安全模式为windows

2014-09-23 14:58:54 868

原创 pyInstaller

1.下载PyInstaller 。地址http://www.pyinstaller.org/ji

2014-09-03 21:52:18 4564

原创 U盘启动Redhat Enterprise AS v5.4

最近公司要在服务器上安装Redhat Enterprise AS v5.4，

2014-08-29 16:57:56 903

转载 get & post

PHP中GET vs. POSTGET 和 POST 都创建数组（例如，array( key => value, key2 => value2, key3 => value3, ...)）。此数组包含键/值对，其中的键是表单控件的名称，而值是来自用户的输入数据。GET 和 POST 被视作 $_GET 和 $_POST。它们是超全局变量，这意味着对它们的访问

2014-08-24 18:25:32 740

原创 eSpeak安装实录

http://wangyuxxx.iteye.com/blog/1851395这篇博客已经说的比较详细了，我只是补充一下我遇到的问题。eSpeak需要PortAudio库支持的，下载portaudio_v18.zip，编译过程中可能会遇到如下问题：1.$chmod +x configure$./configure错误：/bin/sh^M：损坏的解释器: 没有该文件或目录问题

2013-12-11 21:45:59 2521

原创不带头节点的双向循环链表基本操作

笔试了NHN的试题，其中有道题是不带头结点的双向循环链表基本操作，创建，插入，删除，销毁。。。以前都是用带头节点的，用起来方便，结果笔试完了后才发现不带头节点的情况下很多没有考虑全面。。重新写了一下。。#include #include #include typedef struct Node{ int data; struct Node *prev; struct Nod

2013-10-16 16:09:38 1736

原创常量字符串

在写代码的过程中遇到这么一个问题：char *str = "abc";char *A = str;char *B = str+1;printf("A:%c, B:%c\n", *A, *B);*A = 'c';*B = 'c';printf("%s\n", str);编译后运行报错：Press ENTER or type command to continueA:

2013-05-30 10:10:10 599

原创 free(): invalid

写KMP字符串匹配算法的时候，遇到malloc申请内存，free的时候报错：*** glibc detected *** ./strdel: free(): invalid next size (fast): 0x09868008 ***======= Backtrace: =========/lib/tls/i686/cmov/libc.so.6(+0x6b591)[0xcad591

2013-05-15 09:46:21 960

原创网卡的混杂模式

混杂模式（Promiscuous Mode）就是接收所有经过网卡的数据包，包括不是发给本机的包。默认情况下网卡只把发给本机的包（包括广播包）传递给上层程序，其它的包一律丢弃。简单的讲,混杂模式就是指网卡能接受所有通过它的数据流，不管是什么格式，什么地址的。事实上，计算机收到数据包后，由网络层进行判断，确定是递交上层（传输层），还是丢弃，还是递交下层（数据链路层、MAC子层）转发。对于广

2013-03-06 16:57:39 898

转载 container_of宏定义分析

转载来自：http://www.cnitblog.com/puppypyb/archive/2008/08/20/48172.aspx一、#define offsetof(TYPE, MEMBER) ((size_t) & ((TYPE *)0)->MEMBER )1. ( (TYPE *)0 ) 将零转型为TYPE类型指针;2. ((TYPE *)0)->MEMBER 访问结构中

2013-03-03 20:04:01 474

转载网卡

网络适配器又称网卡或网络接口卡（NIC），英文名NetworkInterfaceCard。它是使计算机联网的设备。平常所说的网卡就是将PC机和LAN连接的网络适配器。网卡（NIC）插在计算机主板插槽中，负责将用户要传递的数据转换为网络上其它设备能够识别的格式，通过网络介质传输。它的主要技术参数为带宽、总线方式、电气接口方式等。它的基本功能为：从并行到串行的数据转换，包的装配和拆装，网络存取控制，

2013-03-02 17:21:14 979

叫我小名