- 博客(24)
- 资源 (2)
- 收藏
- 关注
原创 HDFS的读写流程
这里写目录标题HDFS的读写流程HDFS写流程(上传流程)HDFS读流程(下载流程)HDFS的读写流程HDFS写流程(上传流程)需要的东西:要上传的文件、客户端Client、NameNode首先,需要在客户端Client上创建一个分布式文件系统的对象(DistributedFileSystem),然后客户端申请向NameNode上传文件,NameNode会向客户端响应是否可以上传文件。(判断的标准:要申请的上传文件的目录不存在,且具有写权限)紧接着,客户端会开一个HDFS的输出流叫做FSDat
2020-10-22 18:59:14 179
原创 Hive之函数的使用
Hive中的函数1. 系统内置函数1)查看系统自带函数2)显示自带的函数的用法3)详细显示自带的函数的用法2. 自定义函数1)说明2)自定义函数类别3)编程步骤3. 自定义UDF函数1)旧API2)新API1. 系统内置函数1)查看系统自带函数hive> show functions; hive> show functions like "*date*"; 2)显示自带的函数的用法hive> desc function upper; 3)详细显示自带的函数的用法hive
2020-05-26 22:23:30 479
原创 Spark Streaming项目实战之实时的分析处理用户对广告点击的行为数据
使用Spark Streaming实时的分析处理用户对广告点击的行为数据1. 准备数据1.1 数据生成方式1.2 数据格式1.3 模拟数据生成及从Kafka中读取数据2. 需求一:每天每地区热门广告Top32.1 需求分析2.2 代码实现3. 需求二:最近一小时广告点击量实时统计3.1 需求分析3.2 代码实现1. 准备数据1.1 数据生成方式1.2 数据格式1.3 模拟数据生成及从Kafka中读取数据1)步骤1:开启集群启动Zookeeper集群和Kafka集群(先启动Zookeeper,在启
2020-05-25 21:34:31 2285
原创 SparkStreaming之DStream的创建方式
SparkStreaming之DStream的创建方式1. RDD队列(了解)1.1用法及说明1.2 案例实操2. 自定义数据源2.1 用法及说明2.2 案例实操3. Kafka数据源(面试开发重点)3.1 版本选型3.2 Kafka 0-8 Receive模式3.3 Kafka 0-8 Direct模式3.4 Kafka 0-10 Direct模式1. RDD队列(了解)1.1用法及说明测试过程中,可以通过使用ssc.queueStream(queueOfRDDs)来创建DStream,每一个推送
2020-05-21 23:58:47 825
原创 SparkStreaming入门+WordCount案例
SparkStreaming入门+WordCount案例1. Spark Streaming概述1.1 离线和实时的概念1.2 批量和流式的概念1.3 Spark Streaming是什么1.4 Spark Streaming特点1.5 Spark Streaming架构2. DStream入门2.1 WordCount案例实操2.2 WordCount解析2.3 注意事项1. Spark Streaming概述1.1 离线和实时的概念数据处理的延迟1)离线计算就是在计算开始前已知所有输入数据,
2020-05-21 15:24:56 941 1
原创 SparkCore之累加器的使用
SparkCore之累加器的使用1. 系统累加器1.1 累加器的说明1.2 使用步骤1.3 案例实操2. 自定义累加器2.1 说明2.2 自定义累加器的步骤2.3 案例实操1. 系统累加器1.1 累加器的说明累加器:分布式共享只写变量。(Task和Task之间不能读数据)累加器用来对信息进行聚合,通常在向Spark传递函数时,比如使用map()函数或者用filter()传条件时,可以使用驱动器程序中定义的变量,但是集群中运行的每个任务都会得到这些变量的一份新的副本,更新这些副本的值也不会影响驱动器
2020-05-21 12:07:18 441
原创 SparkCore之电商用户行为数据分析项目实战
SparkCore之项目实战1. 数据准备1)数据格式说明2)数据详细字段说明2. 需求一:Top10热门品类1)需求说明2)需求分析3)代码实现3. 需求二:Top10热门品类中每个品类的Top10活跃Session统计1)需求说明2)需求分析3)代码实现4. 需求三:页面单跳转化率统计1)需求说明2)需求分析3)代码实现1. 数据准备本项目的数据是采集电商网站的用户行为数据,主要包含用户的4种行为:搜索、点击、下单和支付。1)数据格式说明(1)数据采用 _ 分割字段;(2)每一行表示用户
2020-05-17 17:51:51 2936 1
原创 Scala编程语言之匹配对象及样例类
匹配对象及样例类1.匹配对象1)基本语法class User(val name: String, val age: Int)object User{ def apply(name: String, age: Int): User = new User(name, age) def unapply(user: User): Option[(String, Int)] = { if (user == null) None el
2020-05-17 17:17:24 302
原创 SparkCore之广播变量
SparkCore中的广播变量1.定义广播变量:分布式共享只读变量2.为什么使用广播变量在多个并行操作中(Executor)使用同一个变量,Spark默认会为每个任务(Task)分别发送,这样如果共享比较大的对象,会占用很大工作节点的内存。广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值,以供一个或多个Spark操作使用。比如,如果你的应用需要向所有节点发送一个较大的只读查询表,甚至是机器学习算法中的一个很大的特征向量,广播变量用起来都很顺手。3.广播变量的使用步骤
2020-05-17 11:41:52 161
原创 Scala编程语言之Scala入门
Scala入门一、Scala概述1. 为什么学习Scala语言2.Scala语言的发展历史3.Scala语言与Java语言的关系一般来说,学Scala的人,都会Java,而Scala是基于Java的,因此我们需要将Scala和Java以及JVM之间的关系搞清楚,否则学习Scala你会蒙圈。(1)Java运行原理:先编译,在解释;.java源文件 --> 编译器(javac)...
2020-05-03 20:36:07 262
原创 电商数据仓库之项目需求及架构设计
电商数据仓库之项目需求及架构设计1.数据仓库概念2.项目需求及架构设计2.1项目需求2.2 项目框架1.技术选型2.系统数据流程设计3.框架版本选型(1)如何选择?(2)具体版本选型具体实践的是Apache版本:Hadoop3.1.3Flume1.9.0Kafka2.4.1Hive3.1.0Sqoop1.4.6MySQL5.7.29Azkaban2.5....
2020-04-26 23:33:09 820 1
原创 Java编程语言之排序算法和二维数组
排序算法和二维数组1.增强型for循环,也称为foreach循环(1)格式for(数组元素数据类型 临时变量 :数组名) {访问临时变量;}(2)作用:对数组的访问是只读的,常用于数组的遍历。(3)使用下标时用for循环,不使用下标用增强型for循环2.取子数组(1)取子数组public static void main(String[] args) { int[] a...
2020-02-06 21:11:46 216
原创 Eclipse常用的相关快捷键
Eclipse常用的快捷键比较常用(使用频率高)1.补全代码的声明:alt + /2.快速修复: ctrl + 13.批量导包:ctrl + shift + o4.使用单行注释:ctrl + /5.使用多行注释: ctrl + shift + /6.取消多行注释:ctrl + shift + \7.复制指定行的代码:ctrl + alt + down 或 ctrl + alt +...
2020-02-04 14:27:58 78
原创 Java编程语言之数组2
第九天 数组21.类模板信息保存在内存中的什么位置, 里面包含了哪些信息, 类模板信息的特点和作用是什么?(1)保存在内存的方法区内;(2)类中的方法代码,属性的定义信息;(3)特点:类模板只有一个;(4)作用:创建对象时使用,调用方法时需要找到类模板。2.随机数/* 使用random()方法产生随机数*/class RandomTest{ public stati...
2020-01-22 22:34:39 175
原创 Java编程语言之面向对象3和数组 1
第八天 面向对象2和数组11.理解this表示当前对象例子:连锁反应,(练习题)Boy类,Girl类,BoyGirlTest类;girl.marry(this);2.栈是方法的执行位置,方法区是方法存储的位置栈---------->进程 方法区------------->程序代码3.对象和属性的关系对象拥有属性,属性隶属于对象,属性依赖于对象。4.※对象...
2020-01-22 22:25:20 203
原创 Java编程语言之面向对象2
第七天 面向对象21.垃圾对象什么是垃圾对象? 垃圾对象会被立刻清理吗? 如何清理垃圾?垃圾对象:堆空间中没有引用所指向的对象;垃圾对象不一定会被立刻清理;GC自动清理垃圾;操作:把垃圾对象占用的内存空间标记为可用状态。2.封装(1)定义:类中的成员私有化。(2)作用:保存内部数据,具有一定的安全性。【练习】Student类和StudentTest类3.变量访问的就...
2020-01-22 22:21:57 139
原创 Java编程语言之面向对象1
第六天 面向对象11.递归分析执行过程,双重递归分析执行过程2.小项目:家庭记账系统(1)理清概念开发者:逻辑严谨,考虑最终用户测试人员:全方位测试最终用户:傻瓜式操作(2)开发项目中重要的两点项目流程和每个时刻变量的值的变化【作业】敲一遍项目的代码3.学习面向对象的三条主线(1)java类以及类成员属性、方法、构造器(构造方法)(2)面向对象的三大特征封装(Enc...
2020-01-13 22:48:08 154
原创 Java编程语言之方法(method)和重载(overload)
第五天 方法(method)和重载(overload)1.特殊流程控制语句(1)breakbreak作用:中断循环或switch或语句;中断的是距离break最近的循环。带标签的break:跟着标签走就完了,break哪个标签就中断哪个循环。(2)continuecontinue作用:中断当次循环,继续执行下一次的循环;中断的是距离continue最近的当次循环。带标签的con...
2020-01-13 00:12:01 385
原创 Java编程语言之循环结构
第四天 循环结构1.比较三个数num1、num2、num3的大小,然后进行从小到大排序输出。思路:使用冒泡排序先比较前两个相邻数的num1、num2大小,小的数往前移;在比较num2、num3的大小,小的数往前移;这时,num3为最大数;在比较前两个数num1、num2,小的数往前移;最终,即可排序成功。2.【作业】比较4个数num1、num2、num3、num4的大小,进行从小到大排序。...
2020-01-13 00:04:57 330 1
原创 Java编程语言之基本语法2
第三天 基本语法21.运算符(1)位运算符左移<< 右移>> 无符号右移>>> 位与& 位或| 位异或^ 取反~(2)算术运算符正号+ 负号- 加减乘除+ - * / 取余(取模)% ++ – 字符串相加+(3)比较运算符(关系运算符)> &...
2020-01-09 10:50:10 82
原创 Java编程语言之基本语法1
第二天 基本语法11.变量的注意事项(7个)(1)变量需先声明,后使用;(2)变量必须初始化,才能读取;(3)变量必须有数据类型和名称;(4)同一范围内,变量不可重复声明;(5)对变量进行赋值操作时,需注意数据类型;(6)变量有其作用范围,声明的语句隶属于一对{}内;(7)注意数据类型的表述范围,不能溢出。2.常量在内存空间中不允许写入;赋值符号的左边必须是变量。3.数据类...
2020-01-07 23:43:29 186
原创 Java编程语言之Java语言概述
第一天 Java语言概述1.dos命令dir 查看当前目录下的所有文件记忆文件夹md 创建目录cd 进入指定目录cd\ 返回根目录(cd…)cd… 返回上一级目录rd 删除目录del 删除文件exit 退出dos命令窗口2.相对路径和绝对路径相对路径:以当前目录为开始的路径绝对路径:以根目录为开始的路径3.Java语言的八大特性简单性:比C++要简单面向对象:面向过程...
2020-01-06 23:13:01 123
原创 IaaS、PaaS和SaaS的简单理解
IaaS(Infrastructure-as-a-Service)基础设施即服务PaaS(Platform-as-a-Service)平台即服务SaaS(Software-as-a-Service)软件即服务相信三者的区别网上的解释数不胜数,然而或许因为和我们的生活还很“遥远”,总之理解起来不是很深,就感觉有层云,摸不到边。今天看到了一篇文章,感觉讲的非常的通俗易懂。大佬说,我呀很喜欢去...
2019-01-09 20:13:55 236 1
spark-streaming项目实战数据集.zip
2020-05-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人