自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

HuFeiHu

知无涯者,虚心若愚,求知若饥,勇者天佑 !

转载 kafka connect

一. Kafka Connect简介   Kafka是一个使用越来越广的消息系统,尤其是在大数据开发中(实时数据处理和分析)。为何集成其他系统和解耦应用,经常使用Producer来发送消息到Broker,并使用Consumer来消费Broker中的消息。Kafka Connect是到0.9版本才...

2019-04-13 16:03:48 513 0

转载 进阶Java架构师必看的15本书

1、大型网站技术架构:核心原理与案例分析 本书通过梳理大型网站技术发展历程,剖析大型网站技术架构模式,深入讲述大型互联网架构设计的核心原理,并通过一组典型网站技术架构设计案例,为读者呈现一幅包括技术选型、架构设计、性能优化、Web安全、系统发布、运维监控等在内的大型网站开发全景视图。 本书作者...

2019-03-21 22:57:48 410 0

转载 FlinkX--基于flink的分布式数据同步工具

GitHub地址:https://github.com/DTStack/flinkx.git 1 什么是FlinkX FlinkX是在是袋鼠云内部广泛使用的基于flink的分布式离线数据同步框架,实现了多种异构数据源之间高效的数据迁移。 不同的数据源头被抽象成不同的Reader插件,不同的数据...

2019-02-07 16:17:00 6826 1

转载 Python之系统交互

本文转自:http://www.cnblogs.com/yyds/p/7288916.html os与commands模块 subprocess模块 subprocess.Popen类 总结 我们几乎可以在任何操作系统上通过命令行指令与操作系统进行交互,比如Linux平台下的shell。那...

2019-01-24 20:54:30 159 0

转载 Python 大规模数据存储与读取、并行计算:Dask库简述

本文转自:https://blog.csdn.net/sinat_26917383/article/details/78044437 数据结构与pandas非常相似,比较容易理解。 原文文档:http://dask.pydata.org/en/latest/index.html github:...

2019-01-21 20:51:47 954 0

转载 Dubbo的使用及原理浅析

Dubbo是什么? Dubbo是阿里巴巴SOA服务化治理方案的核心框架,每天为2,000+个服务提供3,000,000,000+次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。 Dubbo[]是一个分布式服务框架,致力于提供高性能和透明化的RPC远程服务调用方案,以及SOA服务治理方案。...

2019-01-21 15:40:20 120 0

转载 构建实时流数据平台实践指南

本文转自:https://www.jdon.com/bigdata/stream-data-platform.html   如今流处理stream processing,事件数据和实时等词语非常流行,它们经常和 Kafka, Storm, Samza, 以及 Spark的 Streaming m...

2019-01-20 00:44:17 295 0

转载 Apache Tez基本知识

官方blog: http://hortonworks.com/blog/author/arun_murthy/ svn源码: http://hortonworks.com/blog/introducing-tez-faster-hadoop-processing/ 看到一篇很不错的文章: ...

2019-01-20 00:44:06 234 0

转载 Druid-简介

本文转自:https://yq.aliyun.com/articles/58778?spm=a2c4e.11153940.blogcont58779.37.2625548a2SUN0K Druid 是目前比较流行的高性能的,分布式列存储的OLAP框架(具体来说是MOLAP)。它有如下几个特点: ...

2019-01-20 00:43:52 871 0

转载 Apache Tez最新进展

为了更高效地运行存在依赖关系的作业(比如Pig和Hive产生的MapReduce作业),减少磁盘和网络IO,Hortonworks开发了DAG计算框架Tez。Tez是从MapReduce计算框架演化而来的通用DAG计算框架,可作为MapReduceR/Pig/Hive等系统的底层数据处理引擎,它天...

2019-01-20 00:43:43 581 0

转载 一文读懂 Apache Kudu

本文转自:https://www.jianshu.com/p/83290cd817ac 前言 Apache Kudu是由Cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu支持水平扩展,使用Raft协议进行一致性保证,并且与Cloudera Impala和...

2019-01-20 00:43:33 460 0

转载 实时流处理Storm、Spark Streaming、Samza、Flink孰优孰劣

From http://www.dataguru.cn/article-9532-1.html     分布式流处理需求日益增加,包括支付交易、社交网络、物联网(IOT)、系统监控等。业界对流处理已经有几种适用的框架来解决,下面我们来比较各流处理框架的相同点以及区别。   分布式流处理是...

2019-01-20 00:43:15 338 0

转载 Presto简介

是Facebook开源的,完全基于内存的并⾏计算,分布式SQL交互式查询引擎 是一种Massively parallel processing (MPP)架构,多个节点管道式执⾏ ⽀持任意数据源(通过扩展式Connector组件),数据规模GB~PB级 使用的技术,如向量计算,动态编译执⾏计...

2019-01-20 00:43:01 6591 0

转载 实时流Streaming大数据:Storm,Spark和Samza

 当前有许多分布式计算系统能够实时处理大数据,这篇文章是对Apache的三个框架进行比较,试图提供一个快速的高屋建瓴地异同性总结。 Apache Storm   在Storm中,你设计的实时计算图称为toplogy,将其以集群方式运行,其主节点会在工作节点之间分发代码并执行,在一个topolo...

2019-01-20 00:42:35 178 0

转载 Phoenix入门到精通

摘要: 此Phoenix系列文章将会从Phoenix的语法和功能特性、相关工具、实践经验以及应用案例多方面从浅入深的阐述。希望对Phoenix入门、在做架构设计和技术选型的同学能有一些帮助。 概述 Phoenix是一个开源的HBASE SQL层。它不仅可以使用标准的JDBC API替代HBAS...

2019-01-20 00:42:23 224 0

转载 Apache NiFi简介

一个易用、强大、可靠的数据处理与分发系统。基于Web图形界面,通过拖拽、连接、配置完成基于流程的编程,实现数据采集等功能 一、什么是NiFi? NiFi是美国国家安全局开发并使用了8年的可视化数据集成产品,2014年NAS将其贡献给了Apache社区,2015年成为Apache顶级项...

2019-01-20 00:41:54 4888 0

转载 机器学习H2O AI框架简介

1.  H2O框架 优势:自己实现分布式计算框架,算法种类全,有深度学习算法,同时可以通过Sparkling-water将 h2o 和spark 进行完美整合 a.底层数据层 底层数据读取Hdfs数据  s3数据  SQL 数据  noSQL数据        s3Amazon Simple...

2019-01-19 22:11:11 2866 0

转载 一文读懂数字孪生的应用及意义

本文转自:https://baijiahao.baidu.com/s?id=1612730768875518690&wfr=spider&for=pc   今天的数字化技术正在不断地改变每一个企业。未来,所有的企业都将成为数字化的公司,这不只是要求企业开发出具备...

2019-01-19 22:04:12 5941 0

转载 十年之后,数字孪生将这样改变我们的工作与生活

本文转自:https://baijiahao.baidu.com/s?id=1617158077142839496&wfr=spider&for=pc   资本实验室·今日创新观察 聚焦前沿科技创新与传统产业升级 齐达 数字孪生是近几年兴起的非常前沿的新技...

2019-01-19 22:02:47 575 0

转载 Flume原理解析

本文转自:https://www.cnblogs.com/zhangyinhua/p/7803486.html#_label0   阅读目录(Content) 一、Flume简介 二、Flume特点 三、Flume的一些核心概念 3.1、Agent结构   3.2、source ...

2019-01-19 21:58:53 107 0

转载 Ambari 功能简介

背景 最近在做关于Hadoop集群的可视化部署相关的调研,发现了Ambari这个有趣的东西,在使用的过程中,整理了一部分功能列表,在此分享。 Ambari简介 Ambari是Hortonworks开源的Hadoop平台的管理软件,具备Hadoop组件的安装、管理、运维等基本功能,提供Web UI...

2019-01-19 21:35:43 385 1

转载 阿里开源首款自研科学计算引擎 Mars

日前,阿里巴巴正式对外发布了分布式科学计算引擎 Mars 的开源代码地址,开发者们可以在Github上获取源代码并参与开发。 Mars 突破了现有大数据计算引擎的关系代数为主的计算模型,将分布式技术引入科学计算/数值计算领域,极大地扩展了科学计算的计算规模和效率。目前已应用于阿里巴巴及其云上客户...

2019-01-19 20:55:16 387 0

转载 物联网服务器搭建资料汇总

物联网服务器搭建资料汇总 一文理清散乱的物联网里开发者必须关注的技术!  物联网平台架构设计 MQTT学习笔记——MQTT协议体验 Mosquitto安装和使用  Mosquitto简要教程(安装/使用/测试)  搭建你的物联网——workerman tcp服务器 UDP服务器端和客户端程序设...

2019-01-19 20:47:40 768 0

转载 Geotrellis系列文章

一、geotrellis使用初探 二、geotrellis使用(二)geotrellis-chatta-demo以及geotrellis框架数据读取方式初探 三、geotrellis使用(三)geotrellis数据处理过程分析 四、geotrellis使用(四)geotrellis数据处理部分细...

2019-01-15 18:30:19 1342 0

转载 时空大数据赋能智慧城市的思考和实践

时空大数据和新型智慧城市是当下地信产业的两大热词,这两者的奇妙关联将擦出怎样精彩的火花?时空大数据如何赋能城市智能与城市智慧,让智慧城市建设迈上新的高度?   2月6日至7日,由中国地理信息产业协会主办的智慧城市时空大数据与云平台建设培训研讨班在昆明召开,北京超图信息技术有限公司副总裁陈正在培...

2019-01-15 00:21:27 411 0

转载 geodocker-geomesa安装指南

背景     geotrellis作为一个处理遥感数据的框架,对于遥感数据支持的很棒,但是对于矢量数据却有些不足,首先它的样式选择单一,不能像geoserver使用sld自定义出各种样式,其二就是对与矢量的支持稍弱。那为啥么要用geomesa呢?这个框架资料还是比较多的,支持矢量操作,geose...

2019-01-15 00:04:43 316 1

转载 Apache Arrow 内存数据

文章转自:https://www.cnblogs.com/smartloli/p/6367719.html 1.概述   Apache Arrow 是 Apache 基金会全新孵化的一个顶级项目。它设计的目的在于作为一个跨平台的数据层,来加快大数据分析项目的运行速度。 2.内容   现在大...

2019-01-13 16:35:11 1493 0

转载 Stream 分布式数据流的轻量级异步快照

1. 概述 分布式有状态流处理支持在云中部署和执行大规模连续计算,主要针对低延迟和高吞吐量。这种模式的一个最根本的挑战就是在可能的失败情况下提供处理保证。现有方法依赖于可用于故障恢复的周期性全局状态快照。这些方法有两个主要缺点。首先,他们经常拖延影响数据摄取的整体计算过程。其次,持久化存储所有传...

2019-01-08 14:31:27 121 0

转载 Spark在美团是怎么实现的

目录 1. 美团离线计算平台架构都有哪些框架? 2. 为什么要使用Spark架构? 3. spark推广过程中需要注意哪些方面? 前言 美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、...

2019-01-08 14:29:53 167 0

转载 Hadoop/Spark相关面试问题总结

面试回来之后把其中比较重要的问题记了下来写了个总结:  (答案在后面) 1、简答说一下hadoop的map-reduce编程模型 2、hadoop的TextInputFormat作用是什么,如何自定义实现 3、hadoop和spark的都是并行计算,那么他们有什么相同和区别 4、为什么要...

2019-01-08 14:29:07 91 0

转载 深入理解Apache Flink核心技术

Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性,希望能够帮助读者对Flink有更加深入的了解,对其他大数据系统开发者也能有所裨益。本文假设读者已对MapRe...

2019-01-08 14:27:33 318 0

转载 GeoMesa的安装与Quick Start(HBase)

GeoMesa是一个运行在分布式计算系统上,支持大规模时空矢量数据查询和分析的开源工具。 本文介绍GeoMesa安装,以及来自官方的Quick Start教程(基于HBase)。 第一部分 GeoMesa的安装 1.下载 从Github下载已经编译好的二进制文件,解压至目标目录 # d...

2019-01-05 20:19:04 510 0

转载 GeoMesa源码编译

前言 1、参考:GeoMesa官方英文文档:https://www.geomesa.org/documentation/developer/introduction.html 2、本篇介绍了如何编译GeoMesa源码,即官方文档中所谓的从源码构建GeoMesa,以及对GeoMesa工程的组成架...

2019-01-05 20:17:11 367 0

转载 GeoMesa源码学习:空间索引

本文转自:http://keep.01ue.com/?pi=298096&_a=app&_c=index&_m=p 分布式空间索引可以说是GeoMesa的灵魂了,它直接决定了空间数据的:(1)行主键(2)数据分区与负载均衡(3)索引高效查询。所以说...

2019-01-05 20:12:39 1326 1

转载 GeoMesa源码学习--整体架构

 GeoMesa是一款开源的基于分布式计算系统的面向海量时空数据查询与分析的工具包,它支持多种可扩展的、基于云端的数据存储架构,包括Apache Accumulo, HBase,Cassandra,Google Bigtable,以及用于流计算的Apache Kafka 。同时GeoMesa还可以...

2019-01-05 19:49:12 863 0

转载 GeoMesa-HBase部署实践

关于HBase实验环境的搭建请参阅我的另一篇文章: https://blog.csdn.net/xiaof22a/article/details/80213064 1. GeoMesa源代码编译 由于考虑到日后需要基于GeoMesa进行二次开发,所以本文采用的是编译GeoMesa源代码的方式...

2019-01-05 19:34:09 414 0

转载 GeoMesa-HBase部署实践

本文参考了:https://www.linkedin.com/pulse/testing-big-spatial-data-software-hadoop-hbase-geowave-alvaro-huarte/ 以及geowave的官方文档。并成功在geoserver发布了地图服务。效果见图:...

2019-01-05 19:01:06 356 0

转载 GeoMesa 索引概述

GeoMesa使用许多不同的索引来满足各种搜索谓词。每个索引都有一个标识符,用于在配置选项中引用它。GeoMesa将为给定的SimpleFeatureType模式创建各种索引。这允许我们以优化的方式回答各种查询。GeoMesa将尽最大努力确定用于索引的属性。要使用的属性也可以指定为SimpleFe...

2019-01-05 18:52:52 641 0

转载 GeoMesa 相关资料整理

1.介绍 GeoMesa-HBase部署实践  https://blog.csdn.net/xiaof22a/article/details/80215787  GeoMesa架构  https://blog.csdn.net/u011596455/article/details/75868609...

2019-01-05 18:49:22 604 0

转载 精通Apache Flink必读系列文章

Flink是最接近于谷歌Dataflow大数据分析平台的设计的开源分布式计算引擎,其核心设计理念与Spark有很大的不同。 从设计出发点,Flink是一个流计算处理计算引擎,把批处理视为无限流计算的一种特例,Spark是批处理计算引擎,把流处理视为迷你批处理,因为设计上的差异,导致在对处理时延要...

2019-01-01 19:31:20 713 0

提示
确定要删除当前文章?
取消 删除