大数据技术
文章平均质量分 55
pierre94
just think!
展开
-
【HBase】从MiniBase学LSM算法
MiniBase学习笔记https://github.com/pierre94/minibaseHBase相对复杂,想要快速啃下来比较困难。而MiniBase吸收了HBase最核心的引擎部分的精华,希望可以通过学习MiniBase以小见大,能够对自己理解HBase这个庞然大物有所帮助。 原项目: https://github.com/openinx/minibase 资料: 《HBase原理与实践#设计存储引擎MiniBase》 https://weread.qq.com/web原创 2020-05-18 15:51:13 · 1111 阅读 · 0 评论 -
《hadoop权威指南》笔记一:走进hdfs
基于《hadoop权威指南》第四版一、什么是hdfsHadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS是A...原创 2019-07-30 01:35:17 · 227 阅读 · 0 评论 -
flume 1.9 更新说明
flume 1.9 版本更新个人见解关心的几个点Flume环境变量支持float或double高版本kafka支持与指标完善安全相关的几点改进总体上这个版本并没有带来太核心的变化,老版本用户可以不考虑升级。官方说明(翻译)** 新特性[FLUME-2071] - Flume环境变量不支持float或double的配置值.[FLUME-2442] - Flume配置中提供明文...原创 2019-04-29 01:23:25 · 1746 阅读 · 0 评论 -
【转载】基于flink的分布式同步工具
文章目录FlinkX概览FlinkX的设计思路一.插件式架构二. Flink任务的自动组装FlinkX的优势一.便于使用二.性能优越三.多运行模式四.插件式开发五.错误控制六.任务资源限制欢迎试用FlinkXFlinkX概览一.FlinkX是一个基于Flink的异构数据源离线同步工具,用于在多种数据源(MySQL、Oracle、SqlServer、Ftp、Hdfs,HBase、Hive、Ela...转载 2019-02-15 16:12:06 · 510 阅读 · 0 评论 -
python 常用一行式(持续更新ing)
一行式就是通过一行python代码解决一些复杂的问题 简易Web Server# Python 2 python -m SimpleHTTPServer # Python 3 python -m http.server漂亮的打印from pprint import pprintmy_dict = {'name': 'Yasoob', 'age': 'undefine...原创 2018-04-22 18:04:24 · 838 阅读 · 0 评论 -
大数据采集方案:mysql-binlog 注意点
概要在大数据时代,数据研发人员总是想把各类数据采集到我们的数据仓库。最典型的方案是日志收集方案: flume采集文件,转发到kafka,再使用storm写到hdfs。但是实际场景中,我们的数据源不止文件,还有mysql这类db数据。众所周知,mysql是可以开启binlog的,也就是说我们对db的每个操作都可以通过binlog解析得到。所以我们实时解析mysql的binlog文件,即可实时...原创 2018-04-22 16:51:49 · 3775 阅读 · 4 评论 -
苹果开源数据库产品-foundationdb简介(一)
FoundationDB 是“一个能在多集群服务器上存放大规模结构化数据的分布式数据库”。该数据库系统专注于高性能、高可扩展性和不错的容错能力。2015 年苹果公司收购了数据提供商 FoundationDB,目的是为了提升旗下 App Store、iTunes Connect、 iTunes 服务在云端的服务器技术。FoundationDB 随之从开源变为闭源。北京时间 4 月 20 日凌晨,...原创 2018-04-22 16:16:52 · 3062 阅读 · 0 评论 -
聊聊进程-1-进程间通信ipc技术
简介最近想梳理下进程相关的知识点,第一篇先谈下进程间通信的知识吧。为什么要进程间通信数据传输,如A进程需要传一些参数到B进程事件通知,如A进程告知B进程,你需要停止运行进程间的分工协作,如A进程告诉B进程,你可以做xx了数据的共享,如AB进程同时对一块数据处理进程间通信的方式管道消息队列信号锁与信号灯共享内存套接字进程间通信的各种方法,叫法、分类可能不同,但是实际上大致也就是原创 2017-08-07 00:54:26 · 450 阅读 · 0 评论 -
Protocol Buffers的简单介绍
16年3月写的一篇关于PB的文章,迁移到csdn上面来。原创 2017-07-16 19:56:50 · 221 阅读 · 0 评论 -
初探airflow
airflow是Airbnb开源的data pipeline调度和监控工作流的平台,用于用来创建、监控和调整data pipeline(ETL)。类似的产品有:Linkedin Azkabangithub:https://github.com/apache/incubator-airflowdoc:http://pythonhosted.org/airflow/【简述】Ai原创 2017-04-28 20:30:44 · 12381 阅读 · 2 评论 -
mesos编译遇到的一些坑
前言mesos主要由cpp、java编写,编译起来坑比较多。笔者记录下,自己源码编译遇到的一些问题。填坑 libcurl is required for mesos to build.安装 libcurl-devellibapr-1 is required for mesos to build安装apr-devel-1.3.9-3.el6.x86_64libsubversion-1 is req原创 2017-04-04 16:58:35 · 3691 阅读 · 0 评论 -
为windows下的mysql产生大量测试数据
参考了这篇文章http://bbs.chinaunix.net/thread-4244844-1-1.html ,不过这篇文章只支持linux,windows下并不支持,特做补充。创建临时数据表tmp_seriescreate table tmp_series(id int,primary key(id)); 用python生成100w记录的数据文件python -c原创 2016-08-27 21:16:48 · 870 阅读 · 0 评论