自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (2)
  • 收藏
  • 关注

原创 HDFS的读写流程

这里写目录标题HDFS的读写流程HDFS写流程(上传流程)HDFS读流程(下载流程)HDFS的读写流程HDFS写流程(上传流程)需要的东西:要上传的文件、客户端Client、NameNode首先,需要在客户端Client上创建一个分布式文件系统的对象(DistributedFileSystem),然后客户端申请向NameNode上传文件,NameNode会向客户端响应是否可以上传文件。(判断的标准:要申请的上传文件的目录不存在,且具有写权限)紧接着,客户端会开一个HDFS的输出流叫做FSDat

2020-10-22 18:59:14 179

原创 Hive之函数的使用

Hive中的函数1. 系统内置函数1)查看系统自带函数2)显示自带的函数的用法3)详细显示自带的函数的用法2. 自定义函数1)说明2)自定义函数类别3)编程步骤3. 自定义UDF函数1)旧API2)新API1. 系统内置函数1)查看系统自带函数hive> show functions; hive> show functions like "*date*"; 2)显示自带的函数的用法hive> desc function upper; 3)详细显示自带的函数的用法hive

2020-05-26 22:23:30 479

原创 Spark Streaming项目实战之实时的分析处理用户对广告点击的行为数据

使用Spark Streaming实时的分析处理用户对广告点击的行为数据1. 准备数据1.1 数据生成方式1.2 数据格式1.3 模拟数据生成及从Kafka中读取数据2. 需求一:每天每地区热门广告Top32.1 需求分析2.2 代码实现3. 需求二:最近一小时广告点击量实时统计3.1 需求分析3.2 代码实现1. 准备数据1.1 数据生成方式1.2 数据格式1.3 模拟数据生成及从Kafka中读取数据1)步骤1:开启集群启动Zookeeper集群和Kafka集群(先启动Zookeeper,在启

2020-05-25 21:34:31 2285

原创 SparkStreaming之DStream的创建方式

SparkStreaming之DStream的创建方式1. RDD队列(了解)1.1用法及说明1.2 案例实操2. 自定义数据源2.1 用法及说明2.2 案例实操3. Kafka数据源(面试开发重点)3.1 版本选型3.2 Kafka 0-8 Receive模式3.3 Kafka 0-8 Direct模式3.4 Kafka 0-10 Direct模式1. RDD队列(了解)1.1用法及说明测试过程中,可以通过使用ssc.queueStream(queueOfRDDs)来创建DStream,每一个推送

2020-05-21 23:58:47 825

原创 SparkStreaming入门+WordCount案例

SparkStreaming入门+WordCount案例1. Spark Streaming概述1.1 离线和实时的概念1.2 批量和流式的概念1.3 Spark Streaming是什么1.4 Spark Streaming特点1.5 Spark Streaming架构2. DStream入门2.1 WordCount案例实操2.2 WordCount解析2.3 注意事项1. Spark Streaming概述1.1 离线和实时的概念数据处理的延迟1)离线计算就是在计算开始前已知所有输入数据,

2020-05-21 15:24:56 941 1

原创 SparkCore之累加器的使用

SparkCore之累加器的使用1. 系统累加器1.1 累加器的说明1.2 使用步骤1.3 案例实操2. 自定义累加器2.1 说明2.2 自定义累加器的步骤2.3 案例实操1. 系统累加器1.1 累加器的说明累加器:分布式共享只写变量。(Task和Task之间不能读数据)累加器用来对信息进行聚合,通常在向Spark传递函数时,比如使用map()函数或者用filter()传条件时,可以使用驱动器程序中定义的变量,但是集群中运行的每个任务都会得到这些变量的一份新的副本,更新这些副本的值也不会影响驱动器

2020-05-21 12:07:18 441

原创 SparkCore之电商用户行为数据分析项目实战

SparkCore之项目实战1. 数据准备1)数据格式说明2)数据详细字段说明2. 需求一:Top10热门品类1)需求说明2)需求分析3)代码实现3. 需求二:Top10热门品类中每个品类的Top10活跃Session统计1)需求说明2)需求分析3)代码实现4. 需求三:页面单跳转化率统计1)需求说明2)需求分析3)代码实现1. 数据准备本项目的数据是采集电商网站的用户行为数据,主要包含用户的4种行为:搜索、点击、下单和支付。1)数据格式说明(1)数据采用 _ 分割字段;(2)每一行表示用户

2020-05-17 17:51:51 2936 1

原创 Scala编程语言之匹配对象及样例类

匹配对象及样例类1.匹配对象1)基本语法class User(val name: String, val age: Int)object User{ def apply(name: String, age: Int): User = new User(name, age) def unapply(user: User): Option[(String, Int)] = { if (user == null) None el

2020-05-17 17:17:24 302

原创 SparkCore之广播变量

SparkCore中的广播变量1.定义广播变量:分布式共享只读变量2.为什么使用广播变量在多个并行操作中(Executor)使用同一个变量,Spark默认会为每个任务(Task)分别发送,这样如果共享比较大的对象,会占用很大工作节点的内存。广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值,以供一个或多个Spark操作使用。比如,如果你的应用需要向所有节点发送一个较大的只读查询表,甚至是机器学习算法中的一个很大的特征向量,广播变量用起来都很顺手。3.广播变量的使用步骤

2020-05-17 11:41:52 161

原创 Scala编程语言之Scala入门

Scala入门一、Scala概述1. 为什么学习Scala语言2.Scala语言的发展历史3.Scala语言与Java语言的关系一般来说,学Scala的人,都会Java,而Scala是基于Java的,因此我们需要将Scala和Java以及JVM之间的关系搞清楚,否则学习Scala你会蒙圈。(1)Java运行原理:先编译,在解释;.java源文件 --> 编译器(javac)...

2020-05-03 20:36:07 262

原创 电商数据仓库之项目需求及架构设计

电商数据仓库之项目需求及架构设计1.数据仓库概念2.项目需求及架构设计2.1项目需求2.2 项目框架1.技术选型2.系统数据流程设计3.框架版本选型(1)如何选择?(2)具体版本选型具体实践的是Apache版本:Hadoop3.1.3Flume1.9.0Kafka2.4.1Hive3.1.0Sqoop1.4.6MySQL5.7.29Azkaban2.5....

2020-04-26 23:33:09 820 1

原创 Java编程语言之排序算法和二维数组

排序算法和二维数组1.增强型for循环,也称为foreach循环(1)格式for(数组元素数据类型 临时变量 :数组名) {访问临时变量;}(2)作用:对数组的访问是只读的,常用于数组的遍历。(3)使用下标时用for循环,不使用下标用增强型for循环2.取子数组(1)取子数组public static void main(String[] args) { int[] a...

2020-02-06 21:11:46 216

原创 Eclipse常用的相关快捷键

Eclipse常用的快捷键比较常用(使用频率高)1.补全代码的声明:alt + /2.快速修复: ctrl + 13.批量导包:ctrl + shift + o4.使用单行注释:ctrl + /5.使用多行注释: ctrl + shift + /6.取消多行注释:ctrl + shift + \7.复制指定行的代码:ctrl + alt + down 或 ctrl + alt +...

2020-02-04 14:27:58 78

原创 Eclipse使用多行注释快捷键代码格式混乱问题

Eclipse使用多行注释快捷键代码格式混乱问题第一步第二步第三步第四步第五步

2020-02-04 13:51:01 1136 1

原创 Java编程语言之数组2

第九天 数组21.类模板信息保存在内存中的什么位置, 里面包含了哪些信息, 类模板信息的特点和作用是什么?(1)保存在内存的方法区内;(2)类中的方法代码,属性的定义信息;(3)特点:类模板只有一个;(4)作用:创建对象时使用,调用方法时需要找到类模板。2.随机数/* 使用random()方法产生随机数*/class RandomTest{ public stati...

2020-01-22 22:34:39 175

原创 Java编程语言之面向对象3和数组 1

第八天 面向对象2和数组11.理解this表示当前对象例子:连锁反应,(练习题)Boy类,Girl类,BoyGirlTest类;girl.marry(this);2.栈是方法的执行位置,方法区是方法存储的位置栈---------->进程 方法区------------->程序代码3.对象和属性的关系对象拥有属性,属性隶属于对象,属性依赖于对象。4.※对象...

2020-01-22 22:25:20 203

原创 Java编程语言之面向对象2

第七天 面向对象21.垃圾对象什么是垃圾对象? 垃圾对象会被立刻清理吗? 如何清理垃圾?垃圾对象:堆空间中没有引用所指向的对象;垃圾对象不一定会被立刻清理;GC自动清理垃圾;操作:把垃圾对象占用的内存空间标记为可用状态。2.封装(1)定义:类中的成员私有化。(2)作用:保存内部数据,具有一定的安全性。【练习】Student类和StudentTest类3.变量访问的就...

2020-01-22 22:21:57 139

原创 Java编程语言之面向对象1

第六天 面向对象11.递归分析执行过程,双重递归分析执行过程2.小项目:家庭记账系统(1)理清概念开发者:逻辑严谨,考虑最终用户测试人员:全方位测试最终用户:傻瓜式操作(2)开发项目中重要的两点项目流程和每个时刻变量的值的变化【作业】敲一遍项目的代码3.学习面向对象的三条主线(1)java类以及类成员属性、方法、构造器(构造方法)(2)面向对象的三大特征封装(Enc...

2020-01-13 22:48:08 154

原创 Java编程语言之方法(method)和重载(overload)

第五天 方法(method)和重载(overload)1.特殊流程控制语句(1)breakbreak作用:中断循环或switch或语句;中断的是距离break最近的循环。带标签的break:跟着标签走就完了,break哪个标签就中断哪个循环。(2)continuecontinue作用:中断当次循环,继续执行下一次的循环;中断的是距离continue最近的当次循环。带标签的con...

2020-01-13 00:12:01 385

原创 Java编程语言之循环结构

第四天 循环结构1.比较三个数num1、num2、num3的大小,然后进行从小到大排序输出。思路:使用冒泡排序先比较前两个相邻数的num1、num2大小,小的数往前移;在比较num2、num3的大小,小的数往前移;这时,num3为最大数;在比较前两个数num1、num2,小的数往前移;最终,即可排序成功。2.【作业】比较4个数num1、num2、num3、num4的大小,进行从小到大排序。...

2020-01-13 00:04:57 330 1

原创 Java编程语言之基本语法2

第三天 基本语法21.运算符(1)位运算符左移<< 右移>> 无符号右移>>> 位与& 位或| 位异或^ 取反~(2)算术运算符正号+ 负号- 加减乘除+ - * / 取余(取模)% ++ – 字符串相加+(3)比较运算符(关系运算符)> &...

2020-01-09 10:50:10 82

原创 Java编程语言之基本语法1

第二天 基本语法11.变量的注意事项(7个)(1)变量需先声明,后使用;(2)变量必须初始化,才能读取;(3)变量必须有数据类型和名称;(4)同一范围内,变量不可重复声明;(5)对变量进行赋值操作时,需注意数据类型;(6)变量有其作用范围,声明的语句隶属于一对{}内;(7)注意数据类型的表述范围,不能溢出。2.常量在内存空间中不允许写入;赋值符号的左边必须是变量。3.数据类...

2020-01-07 23:43:29 186

原创 Java编程语言之Java语言概述

第一天 Java语言概述1.dos命令dir 查看当前目录下的所有文件记忆文件夹md 创建目录cd 进入指定目录cd\ 返回根目录(cd…)cd… 返回上一级目录rd 删除目录del 删除文件exit 退出dos命令窗口2.相对路径和绝对路径相对路径:以当前目录为开始的路径绝对路径:以根目录为开始的路径3.Java语言的八大特性简单性:比C++要简单面向对象:面向过程...

2020-01-06 23:13:01 123

原创 IaaS、PaaS和SaaS的简单理解

IaaS(Infrastructure-as-a-Service)基础设施即服务PaaS(Platform-as-a-Service)平台即服务SaaS(Software-as-a-Service)软件即服务相信三者的区别网上的解释数不胜数,然而或许因为和我们的生活还很“遥远”,总之理解起来不是很深,就感觉有层云,摸不到边。今天看到了一篇文章,感觉讲的非常的通俗易懂。大佬说,我呀很喜欢去...

2019-01-09 20:13:55 236 1

spark-streaming项目实战数据集.zip

本文件是我的博客中的《Spark Streaming项目实战》一文中所用到的数据集,如果有小伙伴想实现我的博客实战项目的两个需求,需要下载这个文件。欢迎大家下载!

2020-05-24

SparkCore项目实战数据集.txt

这个文件中的数据是我的博客中SparkCore之项目实战中用到的数据集,数据集是电商中真实的数据进行一定程度的数据清洗得到的。

2020-05-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除