大数据技术
文章平均质量分 94
define_us
互联网编程/架构设计/数学崇拜
展开
-
Spark的基本介绍
基本概念Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContextExecutor:某个Application运行在Worker节点上的一个进程,该进程负责运行某些task,并且负责将数据存在内存或者磁盘上。在Spark on Yarn模式...原创 2018-03-04 13:21:40 · 1185 阅读 · 0 评论 -
Flink
支持流处理,也支持批处理。Flink最大的原则就是,以流处理为根本。Flink认为批处理应该在流处理上实现。通过插入barrier事件来标记微批,收到该事件后,进行快照。发现处理失败,就根据快照恢复然后进行流重访。...原创 2018-12-11 19:19:38 · 224 阅读 · 0 评论 -
Spark-Streaming基础
SparkStreaming原理客户端提交作业后启动Driver,Driver是spark作业的Master。每个作业包含多个Executor,每个Executor以线程的方式运行task,Spark Streaming至少包含一个receiver task。Receiver接收数据后生成Block,并把BlockId汇报给Driver,然后备份到另外一个Executor上。Receiv...原创 2018-10-17 14:34:05 · 251 阅读 · 0 评论 -
Ambari
转载自https://www.jianshu.com/p/dc73d9d03823有部分补充和改动Ambari 主要分为三部分:Server 内含ambari-server(java/shell/python)、ambari-web(js/html)、ambari-admin(js/html)三个子项目Ambari-Agent * ambari-agent(python)项目...转载 2018-11-12 15:29:55 · 192 阅读 · 0 评论 -
docker和k8s的常见命令
docker run创建一个新的容器并运行一个命令docker run [OPTIONS] IMAGE [COMMAND] [ARG...]例子sudo docker run -d -p 5000:5000 training/webapp python app.py //将容器的5000端口映射到内部的5000端口docker-compose如果涉及多个容器的运行(如服务编排)就可...原创 2018-11-08 13:55:45 · 546 阅读 · 0 评论 -
PySpark的原理
转载自http://sharkdtu.com/posts/pyspark-internal.html有部分改动和补充Spark主要是由Scala语言开发,为了方便和其他系统集成而不引入scala相关依赖,部分实现使用Java语言开发,例如External Shuffle Service等。总体来说,Spark是由JVM语言实现,会运行在JVM中。然而,Spark除了提供Scala/Java开...转载 2018-11-13 14:59:46 · 442 阅读 · 0 评论 -
Apache Atlas
数据血缘https://www.sohu.com/a/215119883_692358其实,在我理解中,就是一个数据的全生命周期的管理,从采集到处理,拆分,过滤,整合,存储,到废弃。数据和数据之间可以相互转化,这种转化关系就是数据之间的血缘。精细的数据血缘应该是字段级别的,如果做不到,做成表级别也可以。安装我们采用1.1.0版本。我司使用的架构是HDP(2.6)+ambari(2.5.2...原创 2018-10-26 09:39:24 · 1975 阅读 · 0 评论 -
Kafka和ElasticSearch的整合
三种方案Kafka->logstash->elasticsearch->kibana(简单,只需启动一个代理程序)Kafka->kafka-connect-elasticsearch->elasticsearch->kibana原创 2018-08-21 10:36:51 · 8910 阅读 · 2 评论 -
HBASE架构
Master HBase Master用于协调多个Region Server,侦测各个RegionServer之间的状态,并平衡RegionServer之间的负载。HBaseMaster还有一个职责就是负责分配Region给RegionServer。HBase允许多个Master节点共存,但是这需要Zookeeper的帮助。不过当多个Master节点共存时,只有一个Master是提供服务的......原创 2018-07-17 19:42:09 · 730 阅读 · 0 评论 -
HIVE
用户可以直接使用CLI,也能通过thrift,jdbc,odbc访问hive thrift server来使用hive。原创 2018-07-17 19:30:36 · 176 阅读 · 0 评论 -
HDFS
Client:就是客户端。文件切分。文件上传 HDFS 的时候,Client 将文件切分成 一个一个的Block,然后进行存储。 与 NameNode 交互,获取文件的位置信息。 与 DataNode 交互,读取或者写入数据。 Client 提供一些命令来管理 HDFS,比如启动或者关闭HDFS。 Client 可以通过一些命令来访问 HDFS。NameNode:就是 m...转载 2018-07-17 19:26:11 · 154 阅读 · 0 评论 -
Storm
参考文献https://www.cnblogs.com/intsmaze/p/5918087.html基本概念一个worker就是一个JVM进程。一个worker中可以运行多个bolt和spout,但是这些bolt和spolt都必须属于一个topology。一台物理机器可以运行多个worker。所有同一个worker里的bolt和spout可以共享该JVM中的资源。为了防止资源重...原创 2018-03-28 14:42:31 · 183 阅读 · 0 评论 -
Spark中对RDD的基本操作
1、SPARK简介 (1)一种计算框架.spark其实只是一个计算引擎,而hadoop包含了存储和计算。也就是说,spark最多也就能替换掉hadoop的计算部分(mapreduce)。可从事包含流计算机器学习等功能,和hadoop相互兼容(可以从HDFS读取数据)。 重要特征: 在mapreduce会反复使用磁盘进行数据读取的迭代,spark则将所需要的数据先加载进内存。所以spark速度...原创 2017-01-11 09:10:23 · 622 阅读 · 0 评论 -
ODPS
阿里内部唯一的大数据处理平台。完全替代整个hadoop生态。原创 2019-03-27 14:27:39 · 3250 阅读 · 0 评论