大数据工具
文章平均质量分 71
JLOGAN
你今天真好看
展开
-
大数据整合方案架构总结
文章目录说明需求分析方案架构数据安全安全要求安全模块数据应用dremio部署(Hadoop on yarn模式)个人博客说明本文着重于针对数据整合案例进行总结描述,选取部分数据ETL及平台应用中面临的问题及经验进行介绍,未对完整平台功能及流程进行展开描述。以下总结均来源于自身过往经验。特别的,融合数据安全模块及DaaS服务建议进行简要描述。需求分析数据量:每天千亿级别数据格式:以RDB...原创 2020-02-28 08:59:22 · 3877 阅读 · 0 评论 -
MapReduce学习笔记
MapReduce学习笔记mapreduce提供了简洁的编程接口,对某个计算任务来说,其输入是key/value数据对,输出也以key/value形式表示。开发只需实现Map和reduce两个接口函数内的具体操作内容,即可完成大规模数据的并行批处理任务。 map函数以key/value数据对作为输入,将输入数据经过业务逻辑计算产生若干仍以key/value形式表达的中间数据。mapreduce计算原创 2016-04-21 17:20:37 · 805 阅读 · 1 评论 -
在Windows和Rstudio下本地安装SparkR
转自http://blog.sina.com.cn/s/blog_614408630102vyom.html 原文地址:http://www.r-bloggers.com/installing-and-starting-sparkr-locally-on-windows-os-and-rstudio/毋庸置疑,Spark已经成为最火的大数据工具,本文详细介绍安装SparkR的方法,让你在5分钟之内转载 2016-06-08 11:00:10 · 3035 阅读 · 1 评论 -
R语言字符串相似度 stringdist包
R语言采用stringdist包计算字符串相似度原创 2016-10-19 14:32:10 · 6881 阅读 · 1 评论 -
pentaho & SPARK
一个人难以开发出一个强大且完整的系统,pentaho集成了BI和DI等功能,应用于报表制作和商业智能相对比较全面,最近看了国外文章,这里做一些介绍。pentaho 使用Adaptive Execution Layer (AEL)在不用系统引擎中执行数据转换,而在大数据环境下,基于hadoop集群 下的spark能够进行高效的数据处理。AEL为spark定义数据的转换,直接将操作传递给hadoo原创 2017-10-24 10:24:49 · 998 阅读 · 0 评论 -
HIVE2.1 vs impala
HIVE2.0增加了LLAP(低延迟分析处理),并在2.1版本进行了改进,相较于HIVE 1有了25倍的查询性能提升。LLAP以多线程方式采用内存进行计算。智能地将数据缓存到多台机器内存中,并允许所有客户端共享这些缓存的数据,同时保留了弹性伸缩能力。详见官网LLAP采用缓存持久化查询来避免较长的启动时间;内存查询,并在所有SQL用户之间共享;细粒度的资源管理和占有,适合多用户高并发操作;...原创 2018-07-15 22:02:24 · 1175 阅读 · 0 评论 -
HDP HELLO WORLD案例
第一个HDP应用(物联网案例)摘要准备sandboxHadoop生态传输数据样本到HDFS使用Hive做ETLHive知识点创建ORC文件格式:验证查询数据Hive设置分析数据创建TRUCK_MILEAGE表抽样查询性能展示Tez创建AVG_MILEAGE表创建DRIVERMILEAGE表PIG创建Pig脚本spark使用ambari...翻译 2018-07-15 22:18:12 · 540 阅读 · 0 评论 -
ClickHouse vs. MySQL vs. vertica vs. PostGreSQL
最近脑细胞休假回家过节,实在找不到更快的分析方法了。在一个晴空万里的午后,心里却乌云密布,于是上网刷一刷,忽然发现一匹黑马,大名ClickHouse,顿时乌云散去,灿烂的阳光又直射到了那颗有趣的灵魂!由于做了一段时间大数据架构,喜欢工具之间的比较,于是乎诞生此文,文笔拙劣,望君多多包含!ClickHouse是战斗民族家的‘百度’搞出来的面向OLAP的分布式列式DBMS,跑分是vertica...原创 2018-09-26 11:29:26 · 4215 阅读 · 0 评论