大数据相关
叫我小名
这个作者很懒,什么都没留下…
展开
-
在spark中运行HiveContext
1.添加配置程序只需要读取hive配置文件hive-site.xml,不用hdfs-site.xml.若在ide中直接运行,可以将配置文件直接放在工程resources目录下一起打包,程序会自动到该目录下读取。 也可以spark-submit时在–files中设置hdfs路径原创 2017-02-12 19:42:44 · 3541 阅读 · 0 评论 -
hive中add jar运行报错
问题:在自己写好udf函数,编译成jar包,在hive命令行下执行, add jar udfs-1.0-SNAPSHOT.jar; CREATE TEMPORARY FUNCTION strlen AS 'com.pingan.pbear.udf.StrLen'; select name, strlen(name), score from stu order by score;上述代码涉及到o原创 2017-02-12 19:30:51 · 7193 阅读 · 0 评论 -
no snappyjava in java.library.path
在使用alluxio的过程中遇到如题目中问题,因为我电脑是mac,解决方案如下: 1. 从maven center中下载snappy-java-1.1.1.7.jar 2. unzip解压在路径org/xerial/snappy/native/Mac/x86_64中找到libsnappyjava.jnilib 3. 修改名称:cp libsnappyjava.jnilib libsnappyj原创 2017-04-04 22:54:41 · 1061 阅读 · 1 评论 -
Presto查询优化
简书同步发布:https://www.jianshu.com/p/f435ce79c966 Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。查询语言是类ANSI SQL语句。笔者在多个项目中用到Presto做即席查询,总结了一些优化措施。一、数据存储合理设置分区 与Hive类似,Presto会根据元信息读取分区数据,合理的分区能减少P原创 2018-01-17 09:53:25 · 8170 阅读 · 2 评论 -
测试数据生成工具datafaker
开源情况datafaker是笔者开发的一个大批量测试数据和流测试数据生成工具,兼容python2.7和python3.4+,欢迎下载使用。github地址为:https://github.com/gangly/datafaker文档同步更新在github工具产生背景在软件开发测试过程,经常需要测试数据。这些场景包括:后端开发新建表后,需要构造数据库测试数据,生成接口数据提供给前端使...原创 2019-03-30 20:36:58 · 16771 阅读 · 9 评论 -
多服务器运维工具fablinker
fablinker1.fablinker是什么fablinker是一个多服务器项目部署和管理的工具。兼容python2.7、python3+,用到fabric第三方库,在一台服务器上可管理控制多个远程主机。目前V0.01已开发完成。使用前首先需要确保所用的机器能用ssh连接。2.应用场景2.1 项目部署比如分布式项目部署在12台机器上,一旦代码更改,那么所有worker上的代码都...原创 2019-03-30 20:49:48 · 663 阅读 · 0 评论 -
数据监控和自动化数据测试工具beeper
数据部数据质量预警与自动化数据测试工具github: https://github.com/gangly/beeper一、Beeper产生原因Beeper就是当年的BP机,能发出哔哔的声音,也有通知、报警器的意思,这里用来作为数据质量预警工具的别名。作为数据开发,多数情况下需要每天自动检查数据质量是否有问题,有以下几方面需要关注:每天是否有数据,在检查时间点是否按时产出了数据数据是否完...原创 2019-03-30 23:20:48 · 1324 阅读 · 0 评论 -
如何快速部署分布式项目
fablinker是一个类似ansible开源自动化运维工具,在一台服务器上可管理控制多个远程主机。基于fabric开发,兼容python2.7、python3+。相对ansible和fabric,fablinker基于命令行交互式操作,使用起来更加方便快捷。使用前首先需要确保所有机器能用ssh连接。具体使用请查看应用场景章节。文档同步更新在github, https://github.c...原创 2019-10-10 11:29:58 · 2018 阅读 · 0 评论