2019年01月_HuFeiHu-Blog

转载 Python之系统交互

本文转自：http://www.cnblogs.com/yyds/p/7288916.htmlos与commands模块 subprocess模块 subprocess.Popen类总结我们几乎可以在任何操作系统上通过命令行指令与操作系统进行交互，比如Linux平台下的shell。那么我们如何通过Python来完成这些命令行指令的执行呢？另外，我们应该知道的是命令行指令的执行通常有两...

2019-01-24 20:54:30 329

转载 Python 大规模数据存储与读取、并行计算：Dask库简述

本文转自：https://blog.csdn.net/sinat_26917383/article/details/78044437数据结构与pandas非常相似，比较容易理解。原文文档：http://dask.pydata.org/en/latest/index.htmlgithub：https://github.com/daskdask的内容很多，挑一些我比较看好的内容着重点一下...

2019-01-21 20:51:47 2841

转载 Dubbo的使用及原理浅析

Dubbo是什么？Dubbo是阿里巴巴SOA服务化治理方案的核心框架，每天为2,000+个服务提供3,000,000,000+次访问量支持，并被广泛应用于阿里巴巴集团的各成员站点。Dubbo[]是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含:远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列...

2019-01-21 15:40:20 225

本文转自：https://www.jdon.com/bigdata/stream-data-platform.html　　如今流处理stream processing，事件数据和实时等词语非常流行，它们经常和 Kafka, Storm, Samza, 以及 Spark的 Streaming module等具体技术有关，本指南是介绍如何将这些技术堆栈架构到具体实践中。这些最佳实践经验来自于Lin...

2019-01-20 00:44:17 721

转载 Apache Tez基本知识

官方blog:http://hortonworks.com/blog/author/arun_murthy/svn源码：http://hortonworks.com/blog/introducing-tez-faster-hadoop-processing/看到一篇很不错的文章：http://dongxicheng.org/mapreduce-nextgen/apache-te...

2019-01-20 00:44:06 646

转载 Druid-简介

本文转自：https://yq.aliyun.com/articles/58778?spm=a2c4e.11153940.blogcont58779.37.2625548a2SUN0KDruid 是目前比较流行的高性能的，分布式列存储的OLAP框架(具体来说是MOLAP)。它有如下几个特点：一. 亚秒级查询 druid提供了快速的聚合能力以及亚秒级的OLAP查询能力，多租户的设...

2019-01-20 00:43:52 1370

转载 Apache Tez最新进展

为了更高效地运行存在依赖关系的作业（比如Pig和Hive产生的MapReduce作业），减少磁盘和网络IO，Hortonworks开发了DAG计算框架Tez。Tez是从MapReduce计算框架演化而来的通用DAG计算框架，可作为MapReduceR/Pig/Hive等系统的底层数据处理引擎，它天生融入Hadoop 2.0中的资源管理平台YARN，且由Hadoop 2.0核心人员精心打造，势必将会...

2019-01-20 00:43:43 1138

转载一文读懂 Apache Kudu

本文转自：https://www.jianshu.com/p/83290cd817ac前言Apache Kudu是由Cloudera开源的存储引擎，可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu支持水平扩展，使用Raft协议进行一致性保证，并且与Cloudera Impala和Apache Spark等当前流行的大数据查询和分析工具结合紧密。本文将为您介绍Kudu的一些基本概念...

2019-01-20 00:43:33 1087

转载实时流处理Storm、Spark Streaming、Samza、Flink孰优孰劣

From http://www.dataguru.cn/article-9532-1.html 分布式流处理需求日益增加，包括支付交易、社交网络、物联网（IOT）、系统监控等。业界对流处理已经有几种适用的框架来解决，下面我们来比较各流处理框架的相同点以及区别。分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析。它跟MapReduce一样是一种通用计算，但我们期望延迟...

2019-01-20 00:43:15 567

转载 Presto简介

是Facebook开源的，完全基于内存的并⾏计算，分布式SQL交互式查询引擎是一种Massively parallel processing (MPP)架构，多个节点管道式执⾏⽀持任意数据源（通过扩展式Connector组件），数据规模GB~PB级使用的技术，如向量计算，动态编译执⾏计划，优化的ORC和Parquet Reader等presto不太支持存储过程，支持部分标准sql...

2019-01-20 00:43:01 82363 1

转载实时流Streaming大数据：Storm,Spark和Samza

　当前有许多分布式计算系统能够实时处理大数据，这篇文章是对Apache的三个框架进行比较，试图提供一个快速的高屋建瓴地异同性总结。Apache Storm　　在Storm中，你设计的实时计算图称为toplogy，将其以集群方式运行，其主节点会在工作节点之间分发代码并执行，在一个topology中，数据是在spout之间传递，它发射数据流作为不可变的key-value匹配集合，这种key-v...

2019-01-20 00:42:35 288

转载 Phoenix入门到精通

摘要：此Phoenix系列文章将会从Phoenix的语法和功能特性、相关工具、实践经验以及应用案例多方面从浅入深的阐述。希望对Phoenix入门、在做架构设计和技术选型的同学能有一些帮助。概述Phoenix是一个开源的HBASE SQL层。它不仅可以使用标准的JDBC API替代HBASE client API创建表，插入和查询HBASE，也支持二级索引、事物以及多种SQL层优化。此...

2019-01-20 00:42:23 486

转载 Apache NiFi简介

一个易用、强大、可靠的数据处理与分发系统。基于Web图形界面，通过拖拽、连接、配置完成基于流程的编程，实现数据采集等功能一、什么是NiFi?NiFi是美国国家安全局开发并使用了8年的可视化数据集成产品，2014年NAS将其贡献给了Apache社区，2015年成为Apache顶级项目传统的数据流解决方案往往会遇到以下挑战:网络错误硬盘错误软件崩溃人为错误数...

2019-01-20 00:41:54 13950

转载机器学习H2O AI框架简介

1. H2O框架优势：自己实现分布式计算框架，算法种类全，有深度学习算法，同时可以通过Sparkling-water将 h2o 和spark 进行完美整合a.底层数据层底层数据读取Hdfs数据 s3数据 SQL 数据 noSQL数据 s3Amazon Simple Storage Service 亚马逊的云存储结构 Hive其实就是读取HDFS...

2019-01-19 22:11:11 7078

转载一文读懂数字孪生的应用及意义

本文转自：https://baijiahao.baidu.com/s?id=1612730768875518690&wfr=spider&for=pc 今天的数字化技术正在不断地改变每一个企业。未来，所有的企业都将成为数字化的公司，这不只是要求企业开发出具备数字化特征的产品，更指的是通过数字化手段改变整个产品的设计、开发、制造和服务过程，并通过数字化的手段连接企业的内部和外...

2019-01-19 22:04:12 13078

转载十年之后，数字孪生将这样改变我们的工作与生活

本文转自：https://baijiahao.baidu.com/s?id=1617158077142839496&wfr=spider&for=pc 资本实验室·今日创新观察聚焦前沿科技创新与传统产业升级齐达数字孪生是近几年兴起的非常前沿的新技术，简单说就是利用物理模型，使用传感器获取数据的仿真过程，在虚拟空间中完成映射，以反映相对应的实体的全生命周期过程。...

2019-01-19 22:02:47 919

转载 Flume原理解析

本文转自：https://www.cnblogs.com/zhangyinhua/p/7803486.html#_label0 阅读目录(Content)一、Flume简介二、Flume特点三、Flume的一些核心概念 3.1、Agent结构　　 3.2、source 3.3、Channel 3.4、Sink 四、Flume拦截器、数据流以及可靠性 4.1...

2019-01-19 21:58:53 234

转载 Ambari 功能简介

背景最近在做关于Hadoop集群的可视化部署相关的调研，发现了Ambari这个有趣的东西，在使用的过程中，整理了一部分功能列表，在此分享。Ambari简介Ambari是Hortonworks开源的Hadoop平台的管理软件，具备Hadoop组件的安装、管理、运维等基本功能，提供Web UI进行可视化的集群管理，简化了大数据平台的安装、使用难度。功能列表操作级别：Host Leve...

2019-01-19 21:35:43 1799 1

转载阿里开源首款自研科学计算引擎 Mars

日前，阿里巴巴正式对外发布了分布式科学计算引擎 Mars 的开源代码地址，开发者们可以在Github上获取源代码并参与开发。Mars 突破了现有大数据计算引擎的关系代数为主的计算模型，将分布式技术引入科学计算/数值计算领域，极大地扩展了科学计算的计算规模和效率。目前已应用于阿里巴巴及其云上客户的业务和生产场景。下面，我们将详细介绍Mars的设计初衷和技术架构，希望和大家共同交流探讨。G...

2019-01-19 20:55:16 1212

转载物联网服务器搭建资料汇总

物联网服务器搭建资料汇总一文理清散乱的物联网里开发者必须关注的技术！物联网平台架构设计MQTT学习笔记——MQTT协议体验 Mosquitto安装和使用 Mosquitto简要教程（安装/使用/测试）搭建你的物联网——workerman tcp服务器UDP服务器端和客户端程序设计 TCP服务器端和客户端程序设计MQTT官网 MQTT推荐的各种服务器和客户端使用的各种语言...

2019-01-19 20:47:40 1524

转载 Geotrellis系列文章

一、geotrellis使用初探二、geotrellis使用（二）geotrellis-chatta-demo以及geotrellis框架数据读取方式初探三、geotrellis使用（三）geotrellis数据处理过程分析四、geotrellis使用（四）geotrellis数据处理部分细节五、geotrellis使用（五）使用scala操作Accumulo六、geotrellis使用...

2019-01-15 18:30:19 3066

转载时空大数据赋能智慧城市的思考和实践

时空大数据和新型智慧城市是当下地信产业的两大热词，这两者的奇妙关联将擦出怎样精彩的火花？时空大数据如何赋能城市智能与城市智慧，让智慧城市建设迈上新的高度？ 2月6日至7日，由中国地理信息产业协会主办的智慧城市时空大数据与云平台建设培训研讨班在昆明召开，北京超图信息技术有限公司副总裁陈正在培训研讨班上作了题为《时空大数据赋能智慧城市的思考和实践》的报告，为大家分享了大数据时代智慧城市建设面临...

2019-01-15 00:21:27 1186

转载 geodocker-geomesa安装指南

背景 geotrellis作为一个处理遥感数据的框架，对于遥感数据支持的很棒，但是对于矢量数据却有些不足，首先它的样式选择单一，不能像geoserver使用sld自定义出各种样式，其二就是对与矢量的支持稍弱。那为啥么要用geomesa呢？这个框架资料还是比较多的，支持矢量操作，geoserver支持,能提供WFS、WMS服务，所以还是比较看好的。操作我们直接看看githu...

2019-01-15 00:04:43 1058 1

转载 Apache Arrow 内存数据

文章转自：https://www.cnblogs.com/smartloli/p/6367719.html1.概述　　Apache Arrow 是 Apache 基金会全新孵化的一个顶级项目。它设计的目的在于作为一个跨平台的数据层，来加快大数据分析项目的运行速度。2.内容　　现在大数据处理模型很多，用户在应用大数据分析时，除了将 Hadoop 等大数据平台作为一个存储和批处理平台之...

2019-01-13 16:35:11 2384

转载 Stream 分布式数据流的轻量级异步快照

1. 概述分布式有状态流处理支持在云中部署和执行大规模连续计算，主要针对低延迟和高吞吐量。这种模式的一个最根本的挑战就是在可能的失败情况下提供处理保证。现有方法依赖于可用于故障恢复的周期性全局状态快照。这些方法有两个主要缺点。首先，他们经常拖延影响数据摄取的整体计算过程。其次，持久化存储所有传输中的记录以及算子状态，这会导致比所需的快照要更大。因此，提出了一种新的分布式快照的算法，即在 A...

2019-01-08 14:31:27 287

转载 Spark在美团是怎么实现的

目录1. 美团离线计算平台架构都有哪些框架？2. 为什么要使用Spark架构?3. spark推广过程中需要注意哪些方面？前言美团是数据驱动的互联网服务，用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志，这些日志数据将被汇总处理、分析、挖掘与学习，为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景，选择合适、高效...

2019-01-08 14:29:53 370

转载 Hadoop/Spark相关面试问题总结

面试回来之后把其中比较重要的问题记了下来写了个总结：（答案在后面）1、简答说一下hadoop的map-reduce编程模型2、hadoop的TextInputFormat作用是什么，如何自定义实现3、hadoop和spark的都是并行计算，那么他们有什么相同和区别4、为什么要用flume导入hdfs，hdfs的构架是怎样的5、map-reduce程序运行的时候会有什么比较...

2019-01-08 14:29:07 259

转载深入理解Apache Flink核心技术

Apache Flink（下简称Flink）项目是大数据处理领域最近冉冉升起的一颗新星，其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性，希望能够帮助读者对Flink有更加深入的了解，对其他大数据系统开发者也能有所裨益。本文假设读者已对MapReduce、Spark及Storm等大数据处理框架有所了解，同时熟悉流处理与批处理的基本概念。Fli...

2019-01-08 14:27:33 524

转载 GeoMesa的安装与Quick Start(HBase)

GeoMesa是一个运行在分布式计算系统上，支持大规模时空矢量数据查询和分析的开源工具。本文介绍GeoMesa安装，以及来自官方的Quick Start教程（基于HBase）。第一部分 GeoMesa的安装1.下载从Github下载已经编译好的二进制文件，解压至目标目录# download and unpackage the most recent distribution:...

2019-01-05 20:19:04 1498

转载 GeoMesa源码编译

前言1、参考：GeoMesa官方英文文档：https://www.geomesa.org/documentation/developer/introduction.html2、本篇介绍了如何编译GeoMesa源码，即官方文档中所谓的从源码构建GeoMesa，以及对GeoMesa工程的组成架构进行概述，为后期的开发做准备。3、GeoMesa的源码工程是用Apache Maven构建的。如...

2019-01-05 20:17:11 1004 1

转载 GeoMesa源码学习:空间索引

本文转自：http://keep.01ue.com/?pi=298096&_a=app&_c=index&_m=p分布式空间索引可以说是GeoMesa的灵魂了，它直接决定了空间数据的：（1）行主键（2）数据分区与负载均衡（3）索引高效查询。所以说要想真正了解GeoMesa的核心代码，必须要把索引这一部分弄懂吃透。空间索引方法是一套完整切复杂的理论体系，建议读者在阅读本文...

2019-01-05 20:12:39 2710 1

转载 GeoMesa源码学习--整体架构

GeoMesa是一款开源的基于分布式计算系统的面向海量时空数据查询与分析的工具包，它支持多种可扩展的、基于云端的数据存储架构，包括Apache Accumulo, HBase，Cassandra，Google Bigtable，以及用于流计算的Apache Kafka 。同时GeoMesa还可以和Apache Storm一起处理流数据，并使用Spark进行空间分析。同时，GeoMesa以Geo...

2019-01-05 19:49:12 2274

转载 GeoMesa-HBase部署实践

关于HBase实验环境的搭建请参阅我的另一篇文章：https://blog.csdn.net/xiaof22a/article/details/802130641. GeoMesa源代码编译由于考虑到日后需要基于GeoMesa进行二次开发，所以本文采用的是编译GeoMesa源代码的方式，如果读者仅仅为了学习应用GeoMesa进行空间数据管理，可以直接从官方下载已经编译好的GeoMesa...

2019-01-05 19:34:09 957

转载 GeoMesa-HBase部署实践

本文参考了：https://www.linkedin.com/pulse/testing-big-spatial-data-software-hadoop-hbase-geowave-alvaro-huarte/以及geowave的官方文档。并成功在geoserver发布了地图服务。效果见图：接下来说一下安装步骤：一：安装jdk, hadoop, hbase这个网上教程很多，这里...

2019-01-05 19:01:06 960

转载 GeoMesa 索引概述

GeoMesa使用许多不同的索引来满足各种搜索谓词。每个索引都有一个标识符，用于在配置选项中引用它。GeoMesa将为给定的SimpleFeatureType模式创建各种索引。这允许我们以优化的方式回答各种查询。GeoMesa将尽最大努力确定用于索引的属性。要使用的属性也可以指定为SimpleFeatureType。1.索引概述Z2 [ z2] - Z2索引使用二维Z阶曲线来索引点数据的纬...

2019-01-05 18:52:52 1301 1

转载 GeoMesa 相关资料整理

1.介绍GeoMesa-HBase部署实践 https://blog.csdn.net/xiaof22a/article/details/80215787 GeoMesa架构 https://blog.csdn.net/u011596455/article/details/75868609 GeoMesa 用户文档（英文版） https://www.geomesa.org/docume...

2019-01-05 18:49:22 1212

转载精通Apache Flink必读系列文章

Flink是最接近于谷歌Dataflow大数据分析平台的设计的开源分布式计算引擎，其核心设计理念与Spark有很大的不同。从设计出发点，Flink是一个流计算处理计算引擎，把批处理视为无限流计算的一种特例，Spark是批处理计算引擎，把流处理视为迷你批处理，因为设计上的差异，导致在对处理时延要求高的场景中，Flink更加合适。从生态上来说，二者都有SQL、机器学习、图计算等基本的组件，但是...

2019-01-01 19:31:20 1573

HuFeiHu

转载 Python之系统交互

转载 Python 大规模数据存储与读取、并行计算：Dask库简述

转载 Dubbo的使用及原理浅析

转载构建实时流数据平台实践指南

转载 Apache Tez基本知识

转载 Druid-简介

转载 Apache Tez最新进展

转载一文读懂 Apache Kudu

转载实时流处理Storm、Spark Streaming、Samza、Flink孰优孰劣

转载 Presto简介

转载实时流Streaming大数据：Storm,Spark和Samza

转载 Phoenix入门到精通

转载 Apache NiFi简介

转载机器学习H2O AI框架简介

转载一文读懂数字孪生的应用及意义

转载十年之后，数字孪生将这样改变我们的工作与生活

转载 Flume原理解析

转载 Ambari 功能简介

转载阿里开源首款自研科学计算引擎 Mars

转载物联网服务器搭建资料汇总

转载 Geotrellis系列文章

转载时空大数据赋能智慧城市的思考和实践

转载 geodocker-geomesa安装指南

转载 Apache Arrow 内存数据

转载 Stream 分布式数据流的轻量级异步快照

转载 Spark在美团是怎么实现的

转载 Hadoop/Spark相关面试问题总结

转载深入理解Apache Flink核心技术

转载 GeoMesa的安装与Quick Start(HBase)

转载 GeoMesa源码编译

转载 GeoMesa源码学习:空间索引

转载 GeoMesa源码学习--整体架构

转载 GeoMesa-HBase部署实践

转载 GeoMesa-HBase部署实践

转载 GeoMesa 索引概述

转载 GeoMesa 相关资料整理

转载精通Apache Flink必读系列文章

台球运动中主球运动轨迹的仿真分析

空空如也