自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 Hive中explode的用法

从招贤纳才

2020-08-27 17:05:20 14991 1

原创 sparkStreaming基础知识整理

sparkStreaming 是一种流处理框架,支持多种数据源和多种输出,是一中微批处理,主要的数据结构是:DStream 离散数据流,由多个RDD组成,每一个微批都是一个RDD。Spark Streaming 的入口需要单独创立,因为sparkSession中灭有整合:创建如下:val conf=new SparkConf().setMaster(“local[*]”).setAppName(“kgc streaming demo”)val ssc=new StreamingContext(co

2020-08-26 13:26:44 432

原创 kafka基础知识整理

kaka 是一个分布式消息队列,是一个消息中间件,是一个发布订阅消息系统安装好kafka后,配置 server.properties文件,内容如下:vi ./server.propertiesbroker.id=0advertised.listeners=PLAINTEXT://192.168.153.141:9092log.dirs=/opt/bigdata/kafka211/kafka-logszookeeper.connect=192.168.153.141:2181delete.top

2020-08-26 09:20:10 261

原创 flume基础知识整理

flume:一种可靠、可用的高效分布式数据收集服务基础agent编写:agent.sources = s1 agent.channels = c1 agent.sinks = sk1 #设置Source为netcat 端口为5678,使用的channel为c1 agent.sources.s1.type = netcat agent.sources.s1.bind = localhost agent.sources.s1.port = 5678 agent.sourc

2020-08-21 17:37:03 294

原创 spark基础知识整理

spark core:核心组件,分布式计算引擎交互式工具:spark-shell本机: 事先启动hive的元数据服务 spark-shellStandalone(需要先启动spark sbin/start-all.sh):spark-shell --master spark://hadoop131:7077Yarn:spark-shell --master yarn创建sparkContext对象 val conf= new SparkConf().setMaster

2020-08-21 16:32:09 399

原创 flume案例四:扇出

扇出(fan out)-Flume与Flume之间数据传递:单Flume多Channel、Sink目标:使用flume1监控文件变动,flume1将变动内容传递给flume-2,flume-2负责存储到HDFS。同时flume1将变动内容传递给flume-3,flume-3负责输出到locala1.sources=s1a1.channels=c1 c2a1.sinks=k1 k2#将数据流复制给多个channela1.sources.s1.selector.type=replicating#

2020-08-17 19:46:14 157

原创 flume案例三:扇入

扇入(fan in)-Flume与Flume之间数据传递,多Flume汇总数据到单Flume**目标 :**agent1 监控.log文件 agent2 监控某一个端口的数据流汇总数据 发送给agent3 并写道hdfs上#agent1 监控.log文件a1.sources=s1a1.sinks=k1a1.channels=c1#设置sourcesa1.sources.s1.type=spooldira1.sources.s1.spoolDir=/root/data/flumeFil

2020-08-17 19:11:34 156

原创 flume案例二:拦截器的使用

添加过滤器 把不同的数据通过不同的通道进行传输 , 进而使用不同的sink接受配置flumea1.sources=s1a1.channels=c1 c2a1.sinks=k1 k2#使用netcat作为客户端进行测试a1.sources.s1.type=netcata1.sources.s1.bind=localhosta1.sources.s1.port=5555#设置拦截器a1.sources.s1.interceptors=i1#自己使用java写的连接器【详细请看下面的java

2020-08-17 18:35:47 283 1

原创 flume案例一

1.access.log 搜集到 hdfs 上并按天存储。a1.sources=s1a1.channels=c1a1.sinks=k1#设置sourcesa1.sources.s1.type=spooldira1.sources.s1.spooDir=/root/data/flumea1.sources.s1.includePattern=access[0-9]{4}-[0-9]{2}-[0-9]{2}.loga1.sources.s1.deserializer=LINEa1.source

2020-08-17 17:48:04 157

原创 flume日志收集总结

一、flume架构将多种数据源日志以实时的方式 传入到hadoop或者其他地方分布式:主要是指可以处理分布式平台上的数据 进行汇总架构:CLIENT:客户端 数据产生的地方event:数据传输中的一个数据包 通常对应日志中的一行agent:代理 一个独立的jvm进程 主要处理数据采集SourceChannelSink 与channel 是一个channel可以对应多个sinkb.启动Agentcd conf flume-ng agent --conf …/conf 配置文

2020-08-17 17:27:29 365

原创 如何避免hbase中行键的热点问题

如何避免hbase中行键的热点问题热点的概念:就是大量的访问都集中在一个或者极少数节点,造成此节点下的服务器超负荷工作甚至导致region不可用。同时也会影响节点中的其他region,导致主机无法服务其他region故对rowkey的设计至关总要。避免热点:1、加盐,在rowkey的前面加上随机数,使之排序与前面的不同。分配的前缀种类数量应该和你想使数据分散到不同的 region 的数量一致如果你有一些 热点 rowkey 反复出现在其他分布均匀的 rwokey 中,加盐是很有用的。它将写请

2020-08-09 22:16:06 364

原创 Spark中RDD的调优

RDD优化:1、RDD持久化 即将RDD产生的数据保存在内存中rdd.cache rdd.persist遇到action算子 才会正是生效 进行缓存RDD缓存机制:缓存数据到内存或者磁盘 提升性能前面步骤很复杂额时候,需要计算时 ,会从头计算 ,可以缓存中间结果在计算时直接从缓存中拿 不需要从头计算,提高效率缓存策略:内存(默认)还是磁盘 或者两个都缓存MEMORY_ONLY 直接存储到内存MEMORY_ONLY_SER 序列化存储MEMORY_ONLY_2 写两个副本ME

2020-08-09 22:13:03 439

原创 scala常用函数大全

一、添加、更新元素函数++ 两个集合相加,返回一个左边集合类型的新集合 val a = Array(1, 2) val b = Array(3, 4) val c = a ++ b println(c.mkString(",")) // 1,2,3,4++:两个集合相加,返回一个右边集合类型的新集合val a = List(1, 2)val b = scala.collection.mutable.LinkedList(3, 4)val c = a ++:

2020-08-02 21:31:11 1719

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除