自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 Hive中的动态分区

背景现在, Hive我们需要做一个全量的更新, 对于之前的分区的中的数据我们要进行查询 -> 修改 -> 覆盖操作, 对于新分区的数据需要做到将符合条件的数据进行插入, 之前的数据通过id得到.如下图:在这种情况下, 我们希望dt=3的数据放到今天的分区中, 之前的数据去对应的分区进行更新. 可以使用动态分区来完成语法insert [overwrite] table test1 partition(dt)select a , 具体分区 from test 举个例子, 我们上面的

2021-04-27 12:31:49 233

原创 hiveserveice2断开连接

背景使用idea连接hiveserveice2, 开始的时候没有报错,运行一段任务后, 任务失败, 尝试重新运行时出现 java.io.Exception:连接被拒绝原因hiveservice2服务因为空间不足被kill, 查看日志后发现Java Heap 异常, 因此是内存不足引起的解决将hive/conf/hive-env.sh中的# export HADOOP_HEAPSIZE= 修改为 export HADOOP_HEAPSIZE=1024重启hiveservice2出现错误serv

2021-04-27 11:15:42 1036

原创 Spark 对接 Kafka

Spark对接KafkaKafka作为工作中最常用到的消息中间件, 以其高速处理消息出现在实时处理领域. 要使用Kafka做实时处理,那么就必须说道Spark和Kafka之间的对接对接方式Kafka作为Spark Executor的生产者, Spark Executor从Kafka中拉取数据并进行内容的计算.准备创建一个Maven, 导入需要的依赖<dependencies> <!--spark core--> <dependency>

2021-04-24 16:57:18 594

原创 scala序列化错误

Spark的对象序列化机制当我使用如下代码来测试foreach的时候, 出现了def main(args: Array[String]): Unit = { val sc = new SparkContext(new SparkConf().setAppName("RDD").setMaster("local[*]")) val user = new User(age = 30) sc.makeRDD(List(1,2,3,4)).foreach( num =>

2021-04-22 17:10:45 407

原创 # Spark makeRDD默认分区策略

指定参数sc.makeRDD(List[Int](1, 2, 3, 4), numSlices = 3)得到结果[1], [2], [3,4]为什么会这样分呢?//到对应的方法中def parallelize[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T] = withScope { assertNotStopped() new ParallelCollect

2021-04-22 08:32:30 428

原创 Spark 默认parallelize问题

parallelizespark中有并发的概念, 当使用parallelize方法, 或者makeRDD方法创建一个RDD的时候, 可以选择传入一个默认的并行度, 来提高效率. 当不传入第二个参数的时候, 默认是几个分区呢?def makeRDD[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T] = withScope { parallelize(seq, numSlices)

2021-04-21 22:44:06 637

原创 hive spark连接超时

使用hive报错ql.Driver: FAILED: SemanticException Failed to get a spark session: org.apache.hadoop.hive.ql.metadata.HiveException: Failed to create Spark client for Spark session ce22776f-34da-4eb0-84f5-0aa3fcefaf3a查看报错日志发现client.SparkClientImpl: Timed ou

2021-04-20 10:20:05 3726 4

原创 LinkedList的get时长问题

是什么我在一个LinkedList 中, 频繁的调用get()方法, 例如LinkedList<Integer> maximumNulIndex = new LinkedList<>();maximumNulIndex.add(1);maximumNulIndex.add(1);maximumNulIndex.add(1);maximumNulIndex.add(1);maximumNulIndex.add(1);int[] ret = new int[maximum

2021-04-19 07:34:00 207

原创 使用UDF和UDTF

是什么UDF: 在hive中输入一行数据, 返回一个新的数据UDTF: 输入一行数据, 返回多行数据UDAF: 输入多行数据, 返回一行数据为什么在hive中, 有一些复杂的功能,hive自己给的一些函数已经满足不了的时候, 而写MapReduce又很麻烦, 希望能使用到Hive来自定义处理的时候, 就可以使用自定义函数.怎么做自定义一个函数, 需要的就是简单的继承一下 GenericUDF或者GenericUDTF或者GenericUDAFEvaluator等. 然后实现对应的方法.如

2021-04-18 21:34:44 168

原创 Hive读入数据出现NULL

背景有一个Lzo压缩文件和它的索引读如入数据的时候出现了一行Null数据.原因默认的CombineHiveInputFormat不能识别Lzo文件索引文件, 将这行数据认为是一行数据解决HiveInputFormat能识别Lzo索引文件, 从而跳过...

2021-04-17 16:56:42 223

原创 一个拉勾网的的爬虫_多线程版本

import threadingimport requestsimport refrom queue import Queueimport osimport loggingimport timefrom Dao.query import Utilfrom bean.book import Companyclass Product(threading.Thread): passclass MyProxy(threading.Thread): def __init

2021-04-01 11:34:04 193

原创 IDEA--大数据开发神器

大数据开发工具?你有IDEA就够了!序你是否有被大数据开发工具支配的恐惧? 每次开始学习. 你需要打开idea开始写代码打开一个ssh工具, 例如xshell上传文件打开xftp打开一个记笔记工具, 例如Typro要写hive sql, 打开一个sql 文件 没有提示的状态写sql…太痛苦了! 本篇文章让你解决痛苦, 大呼卧槽, 只需要一个idea, 让你一站式直达.科学的 idea 工具参考 知了, 知了大神有各种姿势让你拥有一个科学的idea工具ss

2021-03-26 01:23:43 816 3

翻译 Job提交流程源码

int maps = writeSplits(job, submitJobDir);// 1 做一个兼容if (jConf.getUseNewMapper()) { maps = writeNewSplits(job, jobSubmitDir);// 当前是新的split切割方法, 因此走这条路} else { maps = writeOldSplits(jConf, jobSubmitDir);}// 2 通过反射创建一个InputFormat的实现类, 默认是FileIn

2021-03-16 20:58:42 109

原创 2021-02-24

同一个数组对象给定一个二进制矩阵 A,我们想先水平翻转图像,然后反转图像并返回结果。for (int i = 0; i < A.length; i++) { int[] arr1 = new int[A[0].length]; // 不同的对象 for (int j = 0; j < A[i].length; j++) { arr1[j] = A[i][A[i].length - j - 1]; } A[i] = arr1;}retur

2021-02-24 09:31:52 41

原创 学习Java中的String类

Stringjava8的API是这样定义String的public final class Stringextends Objectimplements Serializable, Comparable<String>, CharSequence实现了Serializable, Comparable<String>, CharSequence这三个接口要点String 是所有字符串实例的抽象定义类String对象是不可变的。即当String被创造出来时,Strin

2020-09-08 12:00:22 100

原创 Hadoop权威指南第四版数据下载代码

Hadoop权威指南第四版数据下载起因今天买了本《Hadoop权威指南》的PDF资料。原谅我,等我有钱长大一定买正版。因为是盗版所以没有各种的资料,比如说第二章的数据。因为我比较穷爱搞事情,加上上个学期才上完爬虫课。因此写了个脚本把资料下好啦(2019)年的。ok不废话,代码贴出来import requestsimport reimport osfrom urllib import requestclass Downloader(object): header = {

2020-09-05 15:57:44 459 1

原创 xshell突然连接不上虚拟机

xshell突然连接不上虚拟机不知道什么原因,早上做完上课实验之后,下午xshell突然无法连接虚拟机报此错误开始以为是Linux22端口行没有ssh运行,在虚拟机运行lsof -i:22,发现没有不是这个问题看到了一篇网卡不一致的博客在Windows 中运行 ipconfig 发现 VMware Network Adapter VMnet1:的IP变成了168.172.xxx.xxx...

2019-12-06 19:52:21 1773

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除