自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

叫我小名

专注互联网技术

  • 博客(27)
  • 资源 (2)
  • 收藏
  • 关注

原创 测试数据生成工具datafaker

开源情况datafaker是笔者开发的一个大批量测试数据和流测试数据生成工具,兼容python2.7和python3.4+,欢迎下载使用。github地址为:https://github.com/gangly/datafaker文档同步更新在github工具产生背景在软件开发测试过程,经常需要测试数据。这些场景包括:后端开发新建表后,需要构造数据库测试数据,生成接口数据提供给前端使...

2019-03-30 20:36:58 16837 9

原创 如何快速部署分布式项目

fablinker是一个类似ansible开源自动化运维工具,在一台服务器上可管理控制多个远程主机。基于fabric开发,兼容python2.7、python3+。相对ansible和fabric,fablinker基于命令行交互式操作,使用起来更加方便快捷。使用前首先需要确保所有机器能用ssh连接。具体使用请查看应用场景章节。文档同步更新在github, https://github.c...

2019-10-10 11:29:58 2042

原创 Python 之禅

The Zen of Python, by Tim PetersPython之禅 by Tim PetersBeautiful is better than ugly.优美胜于丑陋(Python 以编写优美的代码为目标)Explicit is better than implicit.明了胜于晦涩(优美的代码应当是明了的,命名规范,风格相似)Simple is ...

2019-09-04 10:49:30 272

原创 数据监控和自动化数据测试工具beeper

数据部数据质量预警与自动化数据测试工具github: https://github.com/gangly/beeper一、Beeper产生原因Beeper就是当年的BP机,能发出哔哔的声音,也有通知、报警器的意思,这里用来作为数据质量预警工具的别名。作为数据开发,多数情况下需要每天自动检查数据质量是否有问题,有以下几方面需要关注:每天是否有数据,在检查时间点是否按时产出了数据数据是否完...

2019-03-30 23:20:48 1380

原创 多服务器运维工具fablinker

fablinker1.fablinker是什么fablinker是一个多服务器项目部署和管理的工具。兼容python2.7、python3+,用到fabric第三方库,在一台服务器上可管理控制多个远程主机。目前V0.01已开发完成。使用前首先需要确保所用的机器能用ssh连接。2.应用场景2.1 项目部署比如分布式项目部署在12台机器上,一旦代码更改,那么所有worker上的代码都...

2019-03-30 20:49:48 685

原创 Presto查询优化

简书同步发布:https://www.jianshu.com/p/f435ce79c966 Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。查询语言是类ANSI SQL语句。笔者在多个项目中用到Presto做即席查询,总结了一些优化措施。一、数据存储合理设置分区 与Hive类似,Presto会根据元信息读取分区数据,合理的分区能减少P

2018-01-17 09:53:25 8207 2

原创 no snappyjava in java.library.path

在使用alluxio的过程中遇到如题目中问题,因为我电脑是mac,解决方案如下: 1. 从maven center中下载snappy-java-1.1.1.7.jar 2. unzip解压在路径org/xerial/snappy/native/Mac/x86_64中找到libsnappyjava.jnilib 3. 修改名称:cp libsnappyjava.jnilib libsnappyj

2017-04-04 22:54:41 1080 1

原创 idea提示那些事

在用idea编程过程中会产生许多worning提示,细细查看这些提示,会得到许多好处: - 优化代码,解除潜在bug - 学习相关语言语法 现在把遇到的warning作总结如下。求Array大小时候建议用lengthReplace .size with .length on arrays and strings less This inspection reports array.size

2017-02-12 23:42:51 3264

原创 在spark中运行HiveContext

1.添加配置程序只需要读取hive配置文件hive-site.xml,不用hdfs-site.xml.若在ide中直接运行,可以将配置文件直接放在工程resources目录下一起打包,程序会自动到该目录下读取。 也可以spark-submit时在–files中设置hdfs路径

2017-02-12 19:42:44 3557

原创 hive中add jar运行报错

问题:在自己写好udf函数,编译成jar包,在hive命令行下执行, add jar udfs-1.0-SNAPSHOT.jar; CREATE TEMPORARY FUNCTION strlen AS 'com.pingan.pbear.udf.StrLen'; select name, strlen(name), score from stu order by score;上述代码涉及到o

2017-02-12 19:30:51 7219

原创 compiler mirror not found

在idea上编译spark项目的时候报错:[ERROR] error: error while loading , error in opening zip file[ERROR] error: scala.reflect.internal.MissingRequirementError: object scala.runtime in compiler mirror not found.

2016-12-22 15:08:30 1219

原创 saiku踩坑记录

1.源码编译saiku刚刚编译成功。有以下几个坑:1)将源码中pom.xml中更改的依赖有pdfbox-app,这个应该是pdfbox,版本号应该是2.0.0。2)要跳过测试,mvn clean install -DskipTests 3)如果报错中发现相关doc错误,不要生成文档:mvn中再加上-Dmaven.javadoc.skip=true

2016-06-25 17:58:07 1009

原创 saiku与kylin整合备忘录

为什么要整合?Kylin是通过离线预计算将Hive中事实表的各组合维度的值存储在Hbase中,在前端可实时展现。但是kylin的多维查询需要写SQL,对于不会写SQL的数据分析人员或者业务人员来说,OLAP交互并不是很友好,而且图表展示也不丰富。如果能将saiku和kylin整合,Mondrian是基于关系型数据库的ROLAP(现在也支持Hive了,但查询慢),Kylin是MOLAP,saik

2016-06-25 17:38:33 2723 3

原创 多服务器管理工具fablinker

1.fablinker是什么fablinker是本人自主开发的一个多服务器项目部署和管理的工具。基于python 2.7 ,用到fabric第三方库,在一台服务器上可管理控制多个远程主机,目前V0.01已开发完成。使用前提是多个服务器之前可以通过ssh互联。具体配置请在网上搜索。开源代码:https://github.com/gangly/fablinker

2016-02-26 11:33:13 1419

原创 PhantomJS网页截图

做数据展示时,网页上已经画出了各种直观漂亮的图形。但是给boss们发送邮件时需要清晰的数据图片。用js画不太方便,可选择截图。 1.安装PhantomJS, 可以在网上搜索按照过程。2.编写snap.js脚本3.在php脚本中调用 phantomjs  snap.js  url  img_path  top  left   width  height

2016-02-26 11:24:12 995 1

原创 flaskr例子的运行

首先在flask的github中下载最新源代码。网址:https://github.com/mitsuhiko/flask按照flaskr教程读懂源代码:网址:http://dormousehole.readthedocs.org/en/latest/tutorial/index.html最后发现例子无法运行,需要改进三个地方:1.在flaskr.py文件中最后面添加i

2016-02-22 15:26:16 4887

原创 ADO连接SQL SERVER的两种方式

数据库在本地,安全模式为windows

2014-09-23 14:58:54 818

原创 pyInstaller

1.下载PyInstaller 。地址http://www.pyinstaller.org/ji

2014-09-03 21:52:18 4446

原创 U盘启动Redhat Enterprise AS v5.4

最近公司要在服务器上安装Redhat Enterprise AS v5.4,

2014-08-29 16:57:56 839

转载 get & post

PHP中GET vs. POSTGET 和 POST 都创建数组(例如,array( key => value, key2 => value2, key3 => value3, ...))。此数组包含键/值对,其中的键是表单控件的名称,而值是来自用户的输入数据。GET 和 POST 被视作 $_GET 和 $_POST。它们是超全局变量,这意味着对它们的访问

2014-08-24 18:25:32 675

原创 eSpeak安装实录

http://wangyuxxx.iteye.com/blog/1851395这篇博客已经说的比较详细了,我只是补充一下我遇到的问题。eSpeak需要PortAudio库支持的,下载portaudio_v18.zip,编译过程中可能会遇到如下问题:1.$chmod +x configure$./configure错误:/bin/sh^M:损坏的解释器: 没有该文件或目录问题

2013-12-11 21:45:59 2393

原创 不带头节点的双向循环链表基本操作

笔试了NHN的试题,其中有道题是不带头结点的双向循环链表基本操作,创建,插入,删除,销毁。。。以前都是用带头节点的,用起来方便,结果笔试完了后才发现不带头节点的情况下很多没有考虑全面。。重新写了一下。。#include #include #include typedef struct Node{ int data; struct Node *prev; struct Nod

2013-10-16 16:09:38 1675

原创 常量字符串

在写代码的过程中遇到这么一个问题:char *str = "abc";char *A = str;char *B = str+1;printf("A:%c, B:%c\n", *A, *B);*A = 'c';*B = 'c';printf("%s\n", str);编译后运行报错:Press ENTER or type command to continueA:

2013-05-30 10:10:10 551

原创 free(): invalid

写KMP字符串匹配算法的时候,遇到malloc申请内存,free的时候报错:*** glibc detected *** ./strdel: free(): invalid next size (fast): 0x09868008 ***======= Backtrace: =========/lib/tls/i686/cmov/libc.so.6(+0x6b591)[0xcad591

2013-05-15 09:46:21 893

原创 网卡的混杂模式

混杂模式(Promiscuous Mode) 就是接收所有经过网卡的数据包,包括不是发给本机的包。默认情况下网卡只把发给本机的包(包括广播包)传递给上层程序,其它的包一律丢弃。简单的讲,混杂模式就是指网卡能接受所有通过它的数据流,不管是什么格式,什么地址的。事实上,计算机收到数据包后,由网络层进行判断,确定是递交上层(传输层),还是丢弃,还是递交下层(数据链路层、MAC子层)转发。 对于广

2013-03-06 16:57:39 812

转载 container_of宏定义分析

转载来自:http://www.cnitblog.com/puppypyb/archive/2008/08/20/48172.aspx一、#define offsetof(TYPE, MEMBER) ((size_t) & ((TYPE *)0)->MEMBER )1. ( (TYPE *)0 ) 将零转型为TYPE类型指针;2. ((TYPE *)0)->MEMBER 访问结构中

2013-03-03 20:04:01 418

转载 网卡

网络适配器又称网卡或网络接口卡(NIC),英文名NetworkInterfaceCard。它是使计算机联网的设备。平常所说的网卡就是将PC机和LAN连接的网络适配器。网卡(NIC) 插在计算机主板插槽中,负责将用户要传递的数据转换为网络上其它设备能够识别的格式,通过网络介质传输。它的主要技术参数为带宽、总线方式、电气接口方式等。它的基本功能为:从并行到串行的数据转换,包的装配和拆装,网络存取控制,

2013-03-02 17:21:14 762

datafaker-master.zip

本人自己开发的测试数据生成工具,简单易用。使用方法请参考https://github.com/gangly/datafaker

2019-10-08

visual+c++技术内幕第四版光盘

如果你对C++,MFC还不熟悉的话,这些例子将对你有很大帮助

2011-10-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除