大数据平台
文章平均质量分 83
羽翼天宇
机会永远是留给有准备的人的,每天都要不断的有所进步,越努力,越幸运
展开
-
浅谈开源大数据平台的演变
浅谈开源大数据平台的演变 一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现。虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用、降低使用门槛、带动业界大规模部署的就是Hadoop。得益于MapReduce框架的易用性和容错性, 以及同时包含存储系统和计算系统,使得Hadoop成为大数据处理平台的基石之一。Hadoo...原创 2018-07-29 15:35:57 · 1447 阅读 · 0 评论 -
关于Redis的数据清理
关于Redis的数据清理 我们数据平台中有使用Redis来给线上提供低延时(20毫秒以内)的高并发读写请求,其中最大的Redis使用了阿里云的Redis集群(256G),存储的记录超过10亿,Key的有效期设置为15天,每天写入的记录大概5000万左右,QPS大概在6万左右。由于过期Key的产生速度大于Redis自动清理的速度,因此在Redis中会有大量过期Key未被及时清理。为什么有...原创 2018-07-29 16:04:40 · 9572 阅读 · 1 评论 -
SaltStack简介及安装配置
SaltStack简介及安装配置 SaltStack是一款开源的,基于Python的自动化运维工具,通过SaltStack,我们可以在成千上万台服务器上批量执行命令、分发文件、配置管理、部署代码、采集数据、安装软件等等,它具有以下特性:(1)、部署简单、方便;(2)、支持大部分UNIX/Linux及Windows环境;(3)、主从集中化管理;(4)、配置简单、功能强大、扩展性强;...原创 2018-07-29 16:12:06 · 296 阅读 · 0 评论 -
异构数据源海量数据交换工具-Taobao DataX 下载和使用
异构数据源海量数据交换工具-Taobao DataX 下载和使用 DataX介绍DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,实现了在任意的数据处理系统(RDBMS/Hdfs/Local filesystem)之间的数据交换。目前成熟的数据导入导出工具比较多,但是一般都只能用于数据导入或者导出,并且只能支持一个或者几个特定类型的数据库。这样带来的一个问题是,如果我们...原创 2018-07-29 15:40:14 · 710 阅读 · 0 评论 -
主流开源SQL(on Hadoop)总结,不断改进的Hive始终遥遥领先
主流开源SQL(on Hadoop)总结,不断改进的Hive始终遥遥领先 本文涵盖了6个开源领导者:Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto,还加上Calcite、Kylin、Phoenix、Tajo 和Trafodion。以及2个商业化选择Oracle Big Data SQL 和IBM Big SQL,IBM 尚未将后者更名为“Watso...原创 2018-07-29 15:50:22 · 304 阅读 · 0 评论