![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
LUK流
大数据/java web
展开
-
Spark2.1.0——ContextCleaner的工作原理分析
ContextCleaner是SparkContext中的组件之一。ContextCleaner用于清理那些超出应用范围的RDD、Shuffle对应的map任务状态、Shuffle元数据、Broadcast对象以及RDD的Checkpoint数据。创建ContextCleaner创建ContextCleaner的代码如下。 _cleaner = ...转载 2018-12-30 21:22:21 · 233 阅读 · 0 评论 -
spark操作hbase详细讲解
1.java API实现对hbase的操作package testhbase;import java.util.ArrayList;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import...原创 2019-04-14 15:47:45 · 10308 阅读 · 0 评论 -
关于spark任务提交的几种方式
1.Spark当前支持三种集群管理方式Standalone—Spark自带的一种集群管理方式,易于构建集群。Apache Mesos—通用的集群管理,可以在其上运行Hadoop MapReduce和一些服务应用。Hadoop YARN—Hadoop2中的资源管理器。Tip1: 在集群不是特别大,并且没有mapReduce和Spark同时运行的需求的情况下,用Standalone模式效...原创 2019-04-08 13:25:27 · 7738 阅读 · 0 评论 -
sparkstreaming实时流处理项目(七)
1.搭建springboot先选择spring initializr -> next创建项目名称选择web版本选择目录因为自定义maven,删除了关于的文件目录结构编写一个helloworld:package com.qianliu.spark.web;import org.springframework.web.bind.annotation.RequestMa...原创 2019-03-27 22:09:52 · 1084 阅读 · 0 评论 -
sparkstreaming实时流处理项目(六)
1.需求增加将有些是从搜索引擎中过来的url,做一个统计并且写入hbasecreate 'imooc_course_search_clickcount','info'scan 'imooc_course_search_clickcount'编写一个访问程序:package com.qianliu.daoimport com.qianliu.domain.{CourseClick...原创 2019-03-09 16:45:01 · 470 阅读 · 0 评论 -
sparkstreaming实时流处理项目(五)
1.写入数据到hbase首先要保证:hadoop,zookeeper,hbase,flume,kafka都启动了(1)进入hadoop的sbin目录启动hdfs./start-dfs.shjps查看:进入到hbase的bin目录下:start-hbase.shjps查看:2.创建hbase表进入hbase命令行hbase shelllist查看表单list数...原创 2019-03-09 16:32:45 · 776 阅读 · 0 评论 -
sparkstreaming实时流处理项目(四)
1.监控最新的日志使用命令检测日志:tail -200f access.log2.编写flume的confvi streaming_project.conf添加conf内容exec-memory-logger.sources = exec-sourceexec-memory-logger.sinks = logger-sinkexec-memory-logger.channe...原创 2019-03-09 15:08:10 · 386 阅读 · 0 评论 -
sparkstreaming实时流处理项目(三)
1.产生日志编写一段py脚本模拟数据的产生:#!/usr/bin/env python# -*- coding:utf-8 -*-#@Time : 2019/3/3 21:01#@Author: qianliu#@File : __init__.py.pyimport randomimport randomimport timeurl_paths = [ ...原创 2019-03-03 21:46:01 · 597 阅读 · 0 评论 -
sparkstreaming实时流处理项目(二)
1.log4j的日志采集到flumelog4j.properties如下,这样可以将控制台的信息输出到flume中:#配置log4j.rootLogger=INFO,stdout,flume#stdoutlog4j.appender.stdout = org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.target = Syst...原创 2019-03-03 21:30:38 · 469 阅读 · 0 评论 -
sparkstreaming实时流处理项目(一)
1.项目流程2.CentOS上的一些文件目录为/home/hadoop3.环境配置cat ~/.bash_profile# .bash_profile#Get the aliases and functionsif [ -f ~/.bashrc ]; then . ~/.bashrcfi#User specific environment and start...原创 2019-03-03 16:41:34 · 1108 阅读 · 0 评论 -
跟踪wordcount源码了解spark的每个RDD执行过程
1.wordcount中的RDD关系执行wordcount:#初始化入参数scala> val rdd1 = sc.parallelize(List(List("2","3,4","8,7&am原创 2019-02-11 16:02:41 · 282 阅读 · 0 评论 -
spark提交任务的流程
1.spark任务提交阶段划分spark提交任务分为五个状态,五个状态之间的有四个转换过程:(1)根据代码中的Transformations确定RDD。(2)根据RDD确定RDD的类型和它们之间的血统关系,生成一个DAG。(3)将DAG提交给DAGScheduler来划分出不同的task,以及task执行顺序和依赖关系。(4)TaskScheduler调度任务,采用集群中配置的调度方式...原创 2019-02-15 19:45:32 · 712 阅读 · 0 评论 -
从wordcount了解spark之RDD
1.什么是RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。1.2.RDD的属性1)一组分片(...原创 2019-01-29 20:51:22 · 503 阅读 · 0 评论 -
spark之combineByKey函数源码
1.源码:/** * Simplified version of combineByKeyWithClassTag that hash-partitions the output RDD. * This method is here for backward compatibility. It does not provide combiner * classtag infor...原创 2019-02-01 18:25:19 · 406 阅读 · 0 评论 -
从saprk的wordcount解析groupBykey与RudeceByKey的源码
1.引出问题有两个wordcount的书写方式:1.这是个官方教程的书写wordcountscala> sc.parallelize(List(List("who am i"),List("where you want to go&原创 2019-02-01 16:24:17 · 591 阅读 · 0 评论 -
调试spark出现java.lang.BootstrapMethodError: java.lang.NoClassDefFoundError: scala/runtime/java8/JFuncti
调试:Exception in thread "main" java.lang.BootstrapMethodError: java.lang.NoClassDefFoundError: scala/runtime/java8/JFunction2$mcIII$sp at wordcount.Main$.main(Main.scala:13) at wordcou...原创 2019-01-31 17:12:04 · 7450 阅读 · 0 评论 -
spark数据倾斜问题总结
一、数据倾斜介绍与定位a、数据倾斜的现象,有两种表现:1、某个task一直在执行任务,其他task轻松执行任务马上就结束了。2、有的task正常运行,有的task内存泄漏。c、数据倾斜定位与出现问题的位置:根据log去定位出现数据倾斜的原因,基本只可能是因为发生了shuffle操作,在shuffle的过程中,出现了数据倾斜的问题。因为某个,或者某些key对应的数据,远远的高于其他的ke...原创 2019-05-02 17:13:40 · 279 阅读 · 0 评论