大数据
文章平均质量分 92
我终于有blog了
菜鸟一只
展开
-
apache flume 常用的一些配置
1.http source到hdfs sink(根据传入json不同分配道不同hive表,两种方法) 注:hive表只是hdfs一个文件夹 (1)httpsource:agent.sources.httpSource.type = httpagent.sources.httpSource.port = 5140...原创 2018-04-25 15:13:49 · 380 阅读 · 0 评论 -
YARN 设计理念与基本架构
YARN 的基本组成结构一. ResourceManagerResourceManager 是一个全局的资源管理器,负责整个集群的资源管理和分配。它主要由两个组件构成:调度器(Scheduler)和应用程序管理器(Applications Master,ASM)。①调度器该调度器是一个 "纯调度器",不再参与任何与具体应用程序逻辑相关的工作,而仅根据各个应用程序的资源需求进行分配,资...转载 2019-02-18 16:11:34 · 317 阅读 · 0 评论 -
yarn通过客户端提交application
pom:<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.6.0&原创 2019-01-04 17:45:23 · 2853 阅读 · 1 评论 -
curator使用自增长znode生成id
public class CuratorTest { static Object ob = new Object(); private static CuratorFramework curatorFrameworkClient; private static RetryPolicy retryPolicy; private ...原创 2019-01-04 16:00:29 · 551 阅读 · 0 评论 -
zookeeper client源码解析
1.首先是创建zookeeper实例zk = new ZooKeeper("192.168.0.170:2181", 5000, new zkDemo());下面是zk的构造函数public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, boolean canBeReadOn...原创 2018-12-29 16:56:03 · 925 阅读 · 0 评论 -
zookeeper实现分布式锁(代码)
public class zkDemo implements Watcher { private static final Logger LOG; static { //Keep these two lines together to keep the initialization order explicit LOG = LoggerFactor...原创 2019-01-03 17:33:36 · 380 阅读 · 0 评论 -
zookeeper学习
ZNodesEvery node in a ZooKeeper tree is referred to as aznode. Znodes maintain a stat structure that includes version numbers for data changes, acl changes. The stat structure also has timestamps. ...原创 2018-12-29 11:40:40 · 397 阅读 · 0 评论 -
spark executor 相关
RDD在计算的时候,每个分区都会起一个task,所以rdd的分区数目决定了总的的task数目。申请的计算节点(Executor)数目和每个计算节点核数,决定了你同一时刻可以并行执行的task。比如的RDD有100个分区,那么计算的时候就会生成100个task,你的资源配置为10个计算节点,每个两2个核,同一时刻可以并行的task数目为20,计算这个RDD就需要5个轮次。如果计算资源不...转载 2018-12-10 17:54:09 · 182 阅读 · 0 评论 -
sparkSQL(版本2以后)
var spark = SparkSession.builder.master("local").appName("mytest").getOrCreate()//dataset -> rddvar dataset = spark.read.textFile("./test").cachevar result = dataset.rdd.map((a: String) => a...原创 2018-12-10 15:52:50 · 472 阅读 · 0 评论 -
structuredstreaming需要注意的地方
structuredstreaming在版本1上增加了流式的dataset和df,但有很多原来的操作现在不能使用import org.apache.hadoop.util.ShutdownHookManagerimport org.apache.spark.sql.{ForeachWriter, Row, SparkSession}import org.apache.spark.sq...原创 2018-12-14 16:27:23 · 1868 阅读 · 0 评论 -
hive查看锁表情况
Actually the table was locked with some queries. After unlocking the table, I am able to drop the table now.=>Query to unlock the tableunlock table <tablename>=>We can find the table...原创 2018-12-07 11:20:48 · 6200 阅读 · 1 评论 -
Structured Streaming 编程指南
概述Structured Streaming 是一个基于 Spark SQL 引擎的、可扩展的且支持容错的流处理引擎。你可以像表达静态数据上的批处理计算一样表达流计算。Spark SQL 引擎将随着流式数据的持续到达而持续运行,并不断更新结果。你可以在Scala,Java,Python或R中使用 Dataset/DataFrame API 来表示流聚合,事件时间窗口(event-time wi...转载 2018-12-13 16:15:39 · 1644 阅读 · 1 评论 -
spark状态stream统计uv(updateStateByKey)
import org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.{Seconds, StreamingContext}object KafkaUV { def main(args: Array[String]): Unit = { System.setProperty("hadoop.home....原创 2018-12-13 10:58:42 · 674 阅读 · 0 评论 -
查看YARN任务日志的几种方式
1、通过history server通过history server,直接在web ui上查看(如果任务异常退出,可能会看不到)All Applicationsapplicationapplication log2、通过yarn命令(用户要和提交任务的用户一致)1)yarn application -list -appStates ALL(这个不显示时间信息)...转载 2018-11-05 17:23:20 · 59500 阅读 · 2 评论 -
blink编译及使用
阿里巴巴在2019年1月27日左右开源了Blink,Blink目前的版本是基于Flink1.5.1修改的,然后增加了一些比较好的特性。github地址为:https://github.com/apache/flink/tree/blink下面记录一下编译和使用的过程:详细记录参见:http://fetching118.com/article/5.html-----------------...转载 2019-03-11 14:29:47 · 3523 阅读 · 0 评论