- 博客(22)
- 资源 (1)
- 收藏
- 关注
原创 spark RDD练习秘籍(一)
给定数据如下:班级ID 姓名 年龄 性别 科目 成绩12 张三 25 男 chinese 5012 张三 25 男 math 6012 张三 25 男 english 7012 李四 20 男 chinese 5012 李四 20 男 math 5012 李四 20 男 english 5012 王芳 19 女 chinese 7012 王芳 19 女 math 7012 王芳 19 女 english 7013 张大三 25 男 chinese 6013 张大三 25 男 math
2020-10-19 22:16:00 377
原创 Spark DF写入MySQL性能优化
val url = "jdbc:mysql://10.12.6.232:3306/database_dws?createDatabaseIfNotExist=true&autoReconnect=true&useSSL=false&useUnicode=yes&characterEncoding=UTF-8&allowPublicKeyRetrieval=true&rewriteBatchedStatements=true" val prop = ..
2021-07-07 16:23:35 543
原创 hive启动RUNJAR挂掉问题解决
问题:hive --service metastore &hive --service hiveserver2 &启动hive后,隔一天使用jps查询发现2个RUNJAR挂掉原因:使用&启动后在账户退出后会自动关闭进程解决:nohup hive --service metastore &nohup hive --service hiveserver2 &使用nohup+&启动即可注:nohup 英文全称 no hang up(不挂起),用于在
2021-06-18 10:53:06 2708
转载 2021-05-24
目录关系型数据库关系型数据库:关系模型中的常用概念优点不足非关系型数据库非关系型数据库:非关系型数据库结构优点不足分类CAP 理论关系型与非关系型数据库的比较最近的数据库排名关系型数据库关系型数据库:指采用了关系模型来组织数据的数据库。关系模型指的就是二维表格模型,而一个关系型数据库就是由二维表及其之间的联系所组成的一个数据组织。关系模型中的常用概念关系:一张二维表,每个关系都具有一个关系名,也就是表名元组:二维表中的一行,在数据库中被称为记录属性:二维表中的一列
2021-05-24 18:46:09 171
原创 scala模拟数据发送到kafka
import java.util.Propertiesimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord}import org.apache.kafka.common.serialization.StringSerializerimport scala.language.postfixOpsimport scala.util.Random/** * 模拟产生数据,实时发送Kafka Topic中 * 数
2021-05-12 18:16:54 1105
原创 schema.UDF
一.定义schema的三种方法//1.编程法(复杂不易维护)val schema = StructType(List(StructField("id",StringType,true),StructField("type",StringType,true),StructField("loation",StringType(List(StructField("lititude",DoubleType,false),StructField("id",StringType,false))),fa
2021-05-06 10:05:44 133
原创 Flink 中的Window
1Flink中的Window 概述 streaming 流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集,而 window 是一种切割无限数据为有限块进行处理的手段。2 Window 可以分成两类:ØCountWindow:根据窗口中相同 key 元素的数量来触发执行,执行时只计算元素数量达到窗口大小的 key 对应的结果。ØTimeWindow:将指定时间范围内的所有数据组成一个 window,一次对一个window ...
2020-10-29 21:53:24 172
原创 时间语义与 Wartermark
1Flink 中的时间语义EventTime:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink 通过时间戳分配器访问事件时间戳。例如:点击网站上的某个链接的时间IngestionTime:某个Flink节点的source operator接收到数据的时间,例如:某个source消费到kafka中的数据ProcessingTime:是每一个执行基于时间操作的算子的本地系统时间,与机器相关,默认的时间属性就是 Processing T.
2020-10-29 21:43:36 298
原创 Sparksql
Sparksql1 加载文件rdd: sc.testfiledataFrame:spark.read.textdataset:spark.read.textFilepackage chapter5import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Dataset, SparkSession}object Demo { de
2020-10-24 17:06:40 253
原创 spark几大模式
对Spark的认识由于之前接触过Hadoop,对Spark也是了解一些皮毛,但中间隔了好久才重新使用spark,期间也产生过一些错误的认识。之前觉得MapReduce耗费时间,写一个同等效果的Spark程序很快就能执行完,很长一段时间自己都是在本地的单机环境进行测试学习,所以这种错误的认知就会更加深刻,但事实却并非如此,MR之所以慢是因为每一次操作数据都写在了磁盘上,大量的IO造成了时间和资源的浪费,但是Spark是基于内存的计算引擎,相比MR,减少的是大量的IO,但并不是说给一个Spark程序足够的资
2020-10-24 16:02:50 218
原创 spark 案例-IP经纬度热力图分析
IP经纬度热力图分析(一) 需求分析在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中,会统计今年的热门旅游城市、热门报考学校等,并将这样的信息显示在热点图中。因此,我们需要通过日志信息(运行商或者网站自己生成)和城市ip段信息来判断用户的ip段,统计热点经纬度、热门城市等指标。接下来我们使用spark来实现上述功能。(二) 数据分析●数据log.formatip.txt●日志数据20190121000132.394251.http.format在ip日志信息中
2020-10-23 20:56:59 943 2
原创 spark stream
SparkStreaming一、SparkStreaming和Storm对比SparkStreaming:时间驱动Storm:数据驱动缺点:storm吞吐量太低了二、SparkStreaming简介底层抽象:DStream:封装了一个时间批次的RDD三、kafka如何保证数据不丢失?这不是一个问题,这是三个问题1、producer端如何保证数据不丢失?2、Broker端如何保证数据不丢失?3、Consumer端如何保证数据不丢失?四、kafka为什么那么快?1、采用pageCac
2020-10-22 23:09:22 577
原创 sparkRDD练习超级秘籍(二 )
1、什么是PV值PV(pageview)即页面浏览量或点击量,是衡量一个网站或网页用户访问量。具体的说,PV值就是所有访问者在24小时(0点到24点)内看了某个网站多少个页面或某个网页多少次。PV是指页面刷新的次数,每一次页面刷新,就算做一次PV流量。度量方法就是从浏览器发出一个对网络服务器的请求(Request),网络服务器接到这个请求后,会将该请求对应的一个网页(Page)发送给浏览器,从而产生了一个PV。那么在这里只要是这个请求发送给了浏览器,无论这个页面是否完全打开(下载完成),那么都是应当.
2020-10-19 22:33:29 170
原创 Javaee
1.(if 语句)键盘输入一个整数,表示一个人的年龄。 如果小于6 岁,则输出“儿童”, 6 岁到13 岁,输出 “少儿”; 14 岁到18 岁,输出 “青少年”; 18 到35 岁,输 出“青年”; 35 岁到50 岁,输出 “中年”; 50 岁以上输出 “中老年”import java.util.Scanner;class Day03Homework01 { public static void main(String[] args) { Scanner sc = new Scanner(Sy
2020-07-16 20:56:13 533
原创 Java面向对象习题
1 .编写一个Shape接口, 具有一个draw 方法, 并编写三个类Triangle,Rectangle,Diamond都实现Shape 接口。 在3个类中分别实现draw方法打印如下星阵: * **** * *** **** *** ***** **** * 编写一个测试类具有一个测试方法, 使用Shape 参数, 方法体中调用Shape的draw 方法,打印出斜体样式相应图形*public class h1 { public static void main(String[] args)
2020-07-16 20:53:01 611
原创 String练习题
1.分析以下需求,并用代码实现(1)定义如下方法public static String getPropertyGetMethodName(String property);(2)该方法的参数为String类型,表示用户给定的成员变量的名字,返回值类型为String类型,返回值为成员变量对应的get方法的名字(3)如:用户调用此方法时给定的参数为"name",该方法的返回值为"getName"*public static String getPropertyGetMethodName(String
2020-07-15 23:10:52 762
原创 Java必练题集(一)
1.有一个已经排好序的数组。现输入一个数,要求按原来的规律将它插入数组中。package com.homework.lhh;import java.util.Arrays;import java.util.Scanner;public class Ex13 { @SuppressWarnings("resource") public static void main(String[] args) { int[] array = { 1, 2, 3, 4, 5, 6
2020-07-13 20:20:12 229
转载 CSDN获取积分秘籍
积分获取攻略:1.个人设置里进行手机绑定CSDN账户奖励50分(右上角设置-账户安全-手机绑定)2.完成任务送若干分积分http://task.csdn.net/3.上传有效资源获取积分(上传非法,广告资源用户,将被扣除一定积分,严重者封号)。·上传自己设分资源被下载,下载量×资源分,100分封顶。·上传0分资源被下载,下载量×系统奖励1分,100封顶4.评论资源获取积分(所下载资源只可以评论一次,请真实有效评论)·对待评论资源进行评分,评分后...
2020-07-10 20:56:06 210 1
原创 面向对象(一)
Day03 笔记回顾JVM JRE JDK环境变量配置 JAVA_HOMEHelloWorld小案例注释、关键字和标识符数据类型 4类8种常量变量运算符流程控制:顺序结构、分支结构、循环结构方法:具有特定功能的代码段 方法的重载数组:引用数据类型一、面向对象1.思想介绍1.面向对象:编程使用的一种编程思路,编程思想。2.面向对象和面向过程的比较:都是编程思想,面向对象是基于面向过程的。面向过程【执...
2020-07-10 20:28:36 272
原创 Eclipse超级常用快捷键
内容辅助键alt / :在想不起来代码的时候,可以使用这个按键来做代码的自动生成应用:Main 配合 alt / :生成主方法Syso 配合 alt / :生成一个输出语句创建对象,可以使用内容辅助键,补全类名、构造方法,给变量起名字遍历数组,for 配合 atl / :遍历最近的数组Eclipse的快捷键ctrl + n:新建工程、包、类和文件等内容Ctrl + shift + f:格式化代码Ctrl + shift + o:自动导包、删除没有用的包Ctrl + /:单行注释,取
2020-07-10 19:42:24 620
原创 面向对象练习题
1、什么是面向对象?1)是一种编程思想2)和面向过程的区别3)面向对象的好处4)面向对象的特征5)举例子面向对象:编程使用的一种编程思路,编程思想.面向对象和面向过程的区别:1.都是编程思想.面向过程是面向对象的基础,面向对象是基于面向过程的.2.面向过程更强调解决问题的基本步骤,强调问题的解决方式,更强调的是方法,面向过程的思路:自顶向下,不断分解.3.面向对象:更强调问题的主体,更强调谁来解决这个问题,更强调谁拥有数据和操作数据的权力.面向对象的思路:自底向上,.
2020-07-08 21:33:17 1438
原创 1.古典问题:有一对兔子,从出生后第3个月起每个月都生一对兔子, * 小兔子长到第三个月后每个月又生一对兔子, * 假如兔子都不死,问每个月的兔子对数为多少?
package com.ujiuye.java;/*古典问题:有一对兔子,从出生后第3个月起每个月都生一对兔子,* 小兔子长到第三个月后每个月又生一对兔子,* 假如兔子都不死,问每个月的兔子对数为多少?* 分析:* 月份:1 2 3 4 5 6 7 8 9...* 对数 :1 1 2 3 5 8 13 21...*/public class Demo01 { public static void main(String[] args) { int mont...
2020-07-01 17:42:54 276
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人