大数据
chenyulancn
python、golang、c/c++、linux、虚拟化、大数据
展开
-
HBase 深入浅出
HBase 在大数据生态圈中的位置提到大数据的存储,大多数人首先联想到的是 Hadoop 和 Hadoop 中的 HDFS 模块。大家熟知的 Spark、以及 Hadoop 的 MapReduce,可以理解为一种计算框架。而 HDFS,我们可以认为是为计算框架服务的存储层。因此不管是 Spark 还是 MapReduce,都需要使用 HDFS 作为默认的持久化存储层。那么 HBase 又是什么转载 2017-11-28 15:47:36 · 280 阅读 · 0 评论 -
基于Hadoop的大数据平台实施记——整体架构设计
大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星。我们暂不去讨论大数据到底是否适用于您的组织,至少在互联网上已经被吹嘘成无所不能的超级战舰。好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据,说真的,到目前为止就和云计算一样,让我总觉得像是在看电影《云图》——云里雾里的感觉。或许那些正在向你推销大数据产品的公司会对您描绘一幅乌托邦似的美丽画面,但是您至少要保转载 2018-01-20 22:37:16 · 5158 阅读 · 1 评论 -
Bottled Water: 实时集成postgresql与kafka
摘要: Bottled Water是Confluent公司开发的一款可以将postgresql数据库转换为kafka events的工具。Bottled Water简介Bottled Water是Confluent公司开发的一款可以将postgresql数据库转换为kafka events的工具。Bottled Water可以实时地将postgresql的变化推送至kafka中。有以下几个主要特性...转载 2018-03-07 13:58:27 · 2511 阅读 · 0 评论 -
用Kafka实时复制PostgreSQL里的最新数据
转载来自: http://blog.confluent.io/2015/04/23/bottled-water-real-time-integration-of-postgresql-and-kafka/Summary: Confluent is starting to explore the integration of databases with event streams. As part...转载 2018-03-07 14:01:00 · 3018 阅读 · 0 评论 -
《Kafka Stream》调研:一种轻量级流计算模式
摘要: 流计算,已经有Storm、Spark,Samza,包括最近新起的Flink,Kafka为什么再自己做一套流计算呢?Kafka Stream 与这些框架比有什么优势?Samza、Consumer Group已经包装了Kafka轻量级的消费功能,难道不够吗? 花了一些时间阅读[docs](httpConfluent Inc(原LinkedIn Kafka作者离职后创业公司)在6月份预告推出Ka...转载 2018-03-07 14:26:01 · 771 阅读 · 1 评论 -
Spark Streaming vs. Kafka Stream 哪个更适合你
原文:Spark Streaming vs. Kafka Stream 作者:Mahesh Chand Kandpal 翻译:雁惊寒译者注:本文介绍了两大常用的流式处理框架,Spark Streaming和Kafka Stream,并对他们各自的特点做了详细说明,以帮助读者在不同的场景下对框架进行选择。以下是译文。流式处理的需求每天都在增加,仅仅对大量的数据进行处理是不够的。数据必须快速地得到处理...转载 2018-03-07 14:30:23 · 1409 阅读 · 0 评论 -
KafkaStreams–架构
说明: 本文转载地址:http://blog.csdn.net/ransom0512/article/details/52105379 本文对原翻译进行了补充,加上了自己的理解。本文是Confluent Platform 3.0版本中对于Kafka Streams的翻译。 原文地址:https://docs.confluent.io/3.0.0/streams/index.html 看了很多其他人...转载 2018-03-07 14:33:02 · 564 阅读 · 0 评论 -
一个Spark缓存的使用示例
之前一直不是非常理解Spark的缓存应该如何使用 今天在使用的时候, 为了提高性能, 尝试使用了一下Cache, 并收到了明显的效果之前一直不是非常理解Spark的缓存应该如何使用. 今天在使用的时候, 为了提高性能, 尝试使用了一下Cache, 并收到了明显的效果.关于Cache的一些理论介绍, 网上已经很多了. 但是貌似也没有一个简单的例子说明.注:因为使用的是内部数据文件, 在这边就不公布出...转载 2018-03-07 16:39:42 · 1585 阅读 · 0 评论 -
presto是什么
presto是什么是Facebook开源的,完全基于内存的并⾏计算,分布式SQL交互式查询引擎是一种Massively parallel processing (MPP)架构,多个节点管道式执⾏⽀持任意数据源(通过扩展式Connector组件),数据规模GB~PB级使用的技术,如向量计算,动态编译执⾏计划,优化的ORC和Parquet Reader等presto不太支持存储过程,支持部分标准sql...转载 2018-03-07 17:24:21 · 10105 阅读 · 0 评论 -
Apache Kylin 深入Cube和查询优化
摘要在Apache Kylin超高性能的背后,Cube是至关重要的核心。一个优化得当的Cube既能满足高速查询的需要,又能节省集群资源。本文将从多个方面入手,介绍如何通过优化Cube提升系统性能。近几年,Apache Kylin作为一个高速的开源分布式大数据查询引擎正在迅速崛起。它充分发挥Hadoop、Spark、HBase等技术的优势,通过对超大规模数据集进行预计算,实现秒级甚至亚秒级的查询响应...转载 2018-03-07 21:12:52 · 908 阅读 · 0 评论 -
深入理解shard
索引存储的时候会分为shard,这样可以提高读写性能,并可以实现负载均衡。索引不变性索引一旦被创建,就不可改变。动态索引如何在保持不可变好处(顺序写、缓存在内存)的同时更新倒排索引,不是重写整个倒排索引,而是增加额外的索引反映最近的变化。elasticsearch索引组成索引组成.pngLucene引入了per-segment search,每个segment就是一个倒排索引,但是Elastics...转载 2018-03-08 10:07:14 · 5122 阅读 · 0 评论 -
Presto架构及原理
Presto 是 Facebook 推出的一个基于Java开发的大数据分布式 SQL 查询引擎,可对从数 G 到数 P 的大数据进行交互式的查询,查询的速度达到商业数据仓库的级别,据称该引擎的性能是 Hive 的 10 倍以上。Presto 可以查询包括 Hive、Cassandra 甚至是一些商业的数据存储产品,单个 Presto 查询可合并来自多个数据源的数据进行统一分析。Presto 的目...转载 2018-03-08 10:32:42 · 468 阅读 · 0 评论 -
阿里云上部署kafka,远程无法访问问题
阿里云上部署kafka后,远程总是无法访问,本地机器可以。确定是网络配置的问题,所以在server.properties 做如下修改:host.name=阿里云内网地址 #kafka绑定的interfaceadvertised.listeners=PLAINTEXT://阿里云外网映射地址:9092 # 注册到zookeeper的地址和端口...原创 2018-03-09 16:38:45 · 6894 阅读 · 3 评论 -
kafka+spark streaming代码实例(pyspark+python)
一、系统准备1.启动zookeeper:bin/zkServer.cmd start2.启动kafka:bin/kafka-server-start.sh -daemon config/server.properties3.启动spark:sbin/start-all.sh数据来源:http://files.grouplens.org/datasets/movielens/ml-100k.zip ...转载 2018-03-02 10:42:31 · 11005 阅读 · 3 评论 -
基于Python的Spark Streaming+Kafka编程实践及调优总结
说明Spark Streaming的原理说明的文章很多,这里不做介绍。本文主要介绍使用Kafka作为数据源的编程模型,编码实践,以及一些优化说明spark streaming:http://spark.apache.org/docs/1.6.0/streaming-programming-guide.htmlstreaming-kafka-integration:http://spark.apac...转载 2018-03-02 10:58:04 · 2048 阅读 · 0 评论 -
一次 Spark SQL 性能提升10倍的经历
1. 遇到了啥问题是酱紫的,简单来说:并发执行 spark job 的时候,并发的提速很不明显。嗯,且听我慢慢道来,啰嗦点说,类似于我们内部有一个系统给分析师用,他们写一些 sql,在我们的 spark cluster 上跑。随着分析师越来越多,sql job 也越来越多,等待运行的时间也越来越长,我们就在想怎么把 sql 运行的时间加快一点。我们的整个架构是 spark转载 2017-11-27 16:15:18 · 24735 阅读 · 4 评论 -
你不能错过的 spark 学习资源
1. 书籍,在线文档Learning SparkAdvanced.Analytics.with.SparkMastering Apache SparkOfficial GuideSpark Guide by Cloudera2. 网站official siteuser mailing listspark channel on youtubespark summi转载 2017-11-27 10:35:20 · 2440 阅读 · 0 评论 -
spark-python从hdfs文本数据(美国历年出生人数)统计然后把结果数据写入mysql
学习spark了一段时间需要把各个功能做个串联,实现个简单相对完整的例子,所以尝试使用spark读取 hdfs中的数据,进行处理后,把结果写入mysql数据。#! /usr/bin/env python# This Python file uses the following encoding: utf-8'''Created on Nov 27, 2017@author: root原创 2017-11-28 14:47:35 · 690 阅读 · 0 评论 -
Spark Core 调优指南
1 体系体系2 配置资源分配num-executors:executor的个数executor-cores:cpu core 的两倍executor-memory:每个executor的内存大小driver-memory:driver的内存大小并行度spark.default.parallelismspark.sql.partitionsrepartiti转载 2017-11-20 14:29:28 · 282 阅读 · 0 评论 -
HIVE和HBASE区别
1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。 Apache HBase是一种K转载 2017-11-30 08:57:49 · 212 阅读 · 0 评论 -
hive与hbase的联系与区别
共同点:1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别:2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。3.想象你在操作RMDB数据库,如果是全表扫描,就用Hive+Hadoop,如果是索引访问,就用HBase+Hadoop转载 2017-11-30 09:01:26 · 297 阅读 · 0 评论 -
spark textFile 困惑与解释
在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑。ShuffleShuffle是MapReduce框架中的一个特定的phase,介于Map phase转载 2017-11-21 08:26:56 · 1299 阅读 · 0 评论 -
hadoop HDFS存储原理
根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理。一、角色出演如上图所示,HDFS存储相关角色与功能如下:Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写。Namenode:元数据节点,是系统唯一的管理者。负责元数据的管理;与clie转载 2017-11-21 08:29:35 · 468 阅读 · 0 评论 -
Spark SQL将数据写入Mysql表的一些坑
最近,在使用Spark SQL分析一些数据,要求将分析之后的结果数据存入到相应的MySQL表中。 但是将数据处理完了之后,存入Mysql时,报错了: 代码的基本形式为: [java] view plain copyval r1: Dataset[Row] = data.groupBy(***)...转载 2017-11-30 11:52:41 · 3032 阅读 · 0 评论 -
Spark SQL将数据写入Mysql表的一些坑
最近,在使用Spark SQL分析一些数据,要求将分析之后的结果数据存入到相应的MySQL表中。 但是将数据处理完了之后,存入Mysql时,报错了: 代码的基本形式为: [java] view plain copyval r1: Dataset[Row] = data.groupBy(***)...转载 2017-11-30 11:58:11 · 1774 阅读 · 0 评论 -
Hadoop集群中Hbase的介绍、安装、使用
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。一、Hbase简介HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运转载 2017-11-30 15:09:01 · 352 阅读 · 0 评论 -
Spark SQL操作mysql错误总结
最近,在使用Spark SQL分析一些数据,要求将分析之后的结果数据存入到相应的MySQL表中。 但是将数据处理完了之后,存入Mysql时,报错了: 代码的基本形式为: [java] view plain copyval r1: Dataset[Row] = data.groupBy(***)...转载 2017-12-01 08:25:28 · 2247 阅读 · 0 评论 -
《hadoop学习》关于hdfs中的namenode和datanode详解
namenode:Namenode是中心服务器,单一节点(简化系统的设计和实现),负责管理文件系统的名称空间(namespace)以及客户端对文件的访问。文件操作,Namenode负责文件元数据的操作,DataNode负责处理文件内容的读写请求,跟文件内容相关的数据流不会经过Namenode,只会询问它跟那个DataNode联系,否则Namenode会成为系统的瓶颈。副本存转载 2017-12-04 10:52:23 · 349 阅读 · 0 评论 -
Hadoop各商业发行版之比较
Hadoop的发行版除了社区的Apache hadoop外,cloudera,hortonworks,mapR,EMC,IBM,INTEL,华为等等都提供了自己的商业版本。商业版主要是提供了专业的技术支持,这对一些大型企业尤其重要。每个发行版都有自己的一些特点,本文就各发行版做简单介绍。 2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Had转载 2017-12-22 10:42:56 · 1910 阅读 · 0 评论 -
ganglia简介以及工作原理和配置
1 Ganglia简介Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率,I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。看下ganglia监转载 2017-12-22 14:06:13 · 2489 阅读 · 0 评论 -
Cloudera、Hortonworks 和 MapR —— Hadoop商业发行版的对比分析
对于企业而言,不管过去是否曾使用过Hadoop,正确选择Hadoop商业发行版都很重要。当企业准备投入巨大的财力在Hadoop平台的硬件和解决方案上时,选择某个商业版的Hadoop系统就变得特别重要了。根据业务需要选择正确的Hadoop商业发行版可以带来更多的数据解决方案并且可以获得业界专业人士的认可。这篇文章将从成本、技术细节、部署和维护等几个方面比较Cloudera、Hortonworks和M转载 2017-12-22 14:11:13 · 2861 阅读 · 0 评论 -
HDFS的运行原理
简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。 ③ 适合大数据的处理。多大?多...转载 2018-03-12 09:04:39 · 208 阅读 · 0 评论