2020年08月_大数据fighting

sparkStreaming 是一种流处理框架，支持多种数据源和多种输出，是一中微批处理，主要的数据结构是：DStream 离散数据流，由多个RDD组成，每一个微批都是一个RDD。Spark Streaming 的入口需要单独创立，因为sparkSession中灭有整合：创建如下：val conf=new SparkConf().setMaster(“local[*]”).setAppName(“kgc streaming demo”)val ssc=new StreamingContext(co

2020-08-26 13:26:44 432

原创 kafka基础知识整理

kaka 是一个分布式消息队列，是一个消息中间件，是一个发布订阅消息系统安装好kafka后，配置 server.properties文件，内容如下：vi ./server.propertiesbroker.id=0advertised.listeners=PLAINTEXT://192.168.153.141:9092log.dirs=/opt/bigdata/kafka211/kafka-logszookeeper.connect=192.168.153.141:2181delete.top

2020-08-26 09:20:10 261

原创 flume基础知识整理

flume：一种可靠、可用的高效分布式数据收集服务基础agent编写：agent.sources = s1 agent.channels = c1 agent.sinks = sk1 #设置Source为netcat 端口为5678，使用的channel为c1 agent.sources.s1.type = netcat agent.sources.s1.bind = localhost agent.sources.s1.port = 5678 agent.sourc

2020-08-21 17:37:03 294

原创 spark基础知识整理

spark core：核心组件，分布式计算引擎交互式工具：spark-shell本机：事先启动hive的元数据服务 spark-shellStandalone(需要先启动spark sbin/start-all.sh):spark-shell --master spark://hadoop131:7077Yarn:spark-shell --master yarn创建sparkContext对象 val conf= new SparkConf().setMaster

2020-08-21 16:32:09 399

原创 flume案例四：扇出

扇出(fan out)-Flume与Flume之间数据传递：单Flume多Channel、Sink目标：使用flume1监控文件变动，flume1将变动内容传递给flume-2，flume-2负责存储到HDFS。同时flume1将变动内容传递给flume-3，flume-3负责输出到locala1.sources=s1a1.channels=c1 c2a1.sinks=k1 k2#将数据流复制给多个channela1.sources.s1.selector.type=replicating#

2020-08-17 19:46:14 157

原创 flume案例三：扇入

扇入(fan in)-Flume与Flume之间数据传递，多Flume汇总数据到单Flume**目标：**agent1 监控.log文件 agent2 监控某一个端口的数据流汇总数据发送给agent3 并写道hdfs上#agent1 监控.log文件a1.sources=s1a1.sinks=k1a1.channels=c1#设置sourcesa1.sources.s1.type=spooldira1.sources.s1.spoolDir=/root/data/flumeFil

2020-08-17 19:11:34 156

原创 flume案例二：拦截器的使用

添加过滤器把不同的数据通过不同的通道进行传输，进而使用不同的sink接受配置flumea1.sources=s1a1.channels=c1 c2a1.sinks=k1 k2#使用netcat作为客户端进行测试a1.sources.s1.type=netcata1.sources.s1.bind=localhosta1.sources.s1.port=5555#设置拦截器a1.sources.s1.interceptors=i1#自己使用java写的连接器【详细请看下面的java

2020-08-17 18:35:47 283 1

原创 flume案例一

1.access.log 搜集到 hdfs 上并按天存储。a1.sources=s1a1.channels=c1a1.sinks=k1#设置sourcesa1.sources.s1.type=spooldira1.sources.s1.spooDir=/root/data/flumea1.sources.s1.includePattern=access[0-9]{4}-[0-9]{2}-[0-9]{2}.loga1.sources.s1.deserializer=LINEa1.source

2020-08-17 17:48:04 157

原创 flume日志收集总结

一、flume架构将多种数据源日志以实时的方式传入到hadoop或者其他地方分布式：主要是指可以处理分布式平台上的数据进行汇总架构：CLIENT：客户端数据产生的地方event：数据传输中的一个数据包通常对应日志中的一行agent：代理一个独立的jvm进程主要处理数据采集SourceChannelSink 与channel 是一个channel可以对应多个sinkb.启动Agentcd conf flume-ng agent --conf …/conf 配置文

2020-08-17 17:27:29 365

原创如何避免hbase中行键的热点问题

如何避免hbase中行键的热点问题热点的概念：就是大量的访问都集中在一个或者极少数节点，造成此节点下的服务器超负荷工作甚至导致region不可用。同时也会影响节点中的其他region，导致主机无法服务其他region故对rowkey的设计至关总要。避免热点：1、加盐，在rowkey的前面加上随机数，使之排序与前面的不同。分配的前缀种类数量应该和你想使数据分散到不同的 region 的数量一致如果你有一些热点 rowkey 反复出现在其他分布均匀的 rwokey 中，加盐是很有用的。它将写请

2020-08-09 22:16:06 364

原创 Spark中RDD的调优

RDD优化：1、RDD持久化即将RDD产生的数据保存在内存中rdd.cache rdd.persist遇到action算子才会正是生效进行缓存RDD缓存机制：缓存数据到内存或者磁盘提升性能前面步骤很复杂额时候，需要计算时，会从头计算，可以缓存中间结果在计算时直接从缓存中拿不需要从头计算，提高效率缓存策略：内存（默认）还是磁盘或者两个都缓存MEMORY_ONLY 直接存储到内存MEMORY_ONLY_SER 序列化存储MEMORY_ONLY_2 写两个副本ME

2020-08-09 22:13:03 439

原创 scala常用函数大全

一、添加、更新元素函数++ 两个集合相加，返回一个左边集合类型的新集合 val a = Array(1, 2) val b = Array(3, 4) val c = a ++ b println(c.mkString(",")) // 1,2,3,4++：两个集合相加，返回一个右边集合类型的新集合val a = List(1, 2)val b = scala.collection.mutable.LinkedList(3, 4)val c = a ++:

2020-08-02 21:31:11 1719

qq_41704237的博客

原创 Hive中explode的用法

原创 sparkStreaming基础知识整理