2021年08月_leezsj

11月 09月 08月 07月 06月 05月

原创 presto安装发生报错

Error running command: java.net.ConnectException: Failed to connect to leetom/192.168.10.88:8080我之前用的是java8_60版本java,然后换成java8_221版本即可,附上我的221版本下载链接：https://pan.baidu.com/s/1OHx17wowN_lcF3MfN2-fPA提取码：gf42...

2021-08-30 15:06:12 307 1

原创 presto查询报错

Query 20210830_061727_00007_ak6q7 failed: Partition location does not exist: hdfs://leetom:8020/sources/hudi/cow/event/default提示我没有hfds 的指定目录这是我的实际目录,因为有分区,所以我们需要指定分区之前的查询语句select event,count(1) from event group by event;正确的语句select eve..

2021-08-30 14:22:08 902

原创 Redis

Redis第一节：Redis介绍什么是NoSql 为了解决高并发、高可扩展、高可用、大数据存储问题而产生的数据库解决方案，就是NoSql数据库。NoSQL，泛指非关系型的数据库，NoSQL即Not-Only SQL，它可以作为关系型数据库的良好补充。但是它不能替代关系型数据库，而且它是存储在内存中，所以它的访问速度很快。Nosql的数据库分类键值(Key-Value)存储数据库相关产品： Tokyo Cabinet/Tyrant、Redis、Voldemort、Berkele

2021-08-24 11:03:21 225

转载 Django

Django 简介基本介绍Django 是一个由 Python 编写的一个开放源代码的 Web 应用框架。使用 Django，只要很少的代码，Python 的程序开发人员就可以轻松地完成一个正式网站所需要的大部分内容，并进一步开发出全功能的 Web 服务 Django 本身基于 MVC 模型，即 Model（模型）+ View（视图）+ Controller（控制器）设计模式，MVC 模式使后续对程序的修改和扩展简化，并且使程序某一部分的重复利用成为可能。MVC 优势：低耦合

2021-08-24 09:51:42 474

原创 Structured Streaming

Structured StreamingStructured Streaming 是 Spark Streaming 的进化版, 如果了解了 Spark 的各⽅⾯的进化过程, 有助于理解 Structured Streaming 的使命和作⽤\1. Spark 的 API 进化过程\2. Spark 的序列化进化过程\3. Spark Streaming 和 Structured StreamingSpark 编程模型的进化过程⽬标Spark 的进化过程中, ⼀个⾮常重要的组

2021-08-24 08:52:16 293

原创 Spark Streaming

Spark Streaming流式计算流式计算拥有的特点：数据是⽆界的(unbounded)数据是动态的计算速度是⾮常快的计算不⽌⼀次计算不能终⽌离线计算的特点：数据是有界的(Bounded)数据静态的计算速度通常较慢计算只执⾏⼀次计算终会终⽌流式计算分为了实时计算和准实时计算实时计算就是来⼀条记录(⼀个事件Event)启动⼀次计算；⽽准实时计算则是介于实时计算和离线计算之间的⼀个计算，所以每次处理的是⼀个微⼩的批次。常⻅的离线和流式计算框架

2021-08-23 08:35:12 400

转载 python

pyhton3python是一个高层次的结合了解释性，编译性，互动性和面向对象的脚本语言python的设计具有很强的可读性，相比其他语言经常使用的英文关键字，其他语言的一些标点符号，他具有比其他语言更有特色的语法结构是一种解释型语言:这意味着开发过程没有编译这个环节是交互式语言:可以在>>>后直接执行代码是面向对象的语言:python支持面向对象的风格或代码封装在对象的编程技术python特点1.易于学习:相对较少的关键字,结构简单,和

2021-08-22 10:18:01 1528

原创 sparksql报错

Exception in thread "main" org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree:Exchange hashpartitioning(subject#6, 200)+- *HashAggregate(keys=[subject#6, name#7], functions=[count(1)], output=[subject#6, name#7, c#12L]) +- E..

2021-08-18 10:16:06 1033

原创 spark报错

Error while instantiating 'org.apache.spark.sql.internal.SessionStateBuilder':Caused by: org.apache.spark.SparkException: Unable to create database default as failed to create its directory /user/hive/warehouseCaused by: org.apache.hadoop.se...

2021-08-18 09:49:59 198

原创 kafka

kafka基本概念apache kafka是一个开源消息系统,由scala写成,由apache基金会开发的开源消息系统项目,kafka是一个分布式消息队列:生产者消费者功能,提供了类似jms的特性,实现上完全不同,不是jms规范的实现kafaka对消息保存时根据topic进行归类发消息者称为producer,收消息者称为consumer,kafka集群由多个kafka实例组成,每个实例称为broker无论是kafka几区还是producer和consumer都依赖zookeeper集群保存的

2021-08-16 14:11:40 222

原创虚拟机重启之后突然没网了

打开服务找到上图虚线选中的这项启动即可

2021-08-14 10:32:06 729

原创 sparksql

sparksql介绍sparksql是spark用来处理结构化数据的一个模板，他提供了要给编程抽象叫做dataframe并且作为分布式sql查询引擎的作用sparksql将sparksql转化为rdd，然后提交到集群执行，执行效率快hive的应用其实是对应不会写java的开发人员，但是会写sql的数据库提供的是mr的一种简化sparksql其实是对之前学习的sparkcore中rdd的一种简化，用sql的语言可以对rdd编程进行开发spark是有处理上限的，10PB，超过这个范围还是

2021-08-13 16:29:35 365

原创 spark源码

sparkcontext初始化的流程-sparkConf对象,也就是spark的配置对象,用来描述spark的配置信息,主要是以键值对的形式加载配置信息-一旦通过newsparkconf()完成了对象的实例化,会默认加载spark.*配置文件class SparkConf(loadDefaults:Boolean){ def this()=this(true)}注意事项-SparkContext对象的实例化,需要一个sparkconf对象作为参数,-在sparkcontext.

2021-08-13 10:12:13 691

原创 SparkShuffle

SparkShuffle什么是shuffleshuffle是分布式计算中不可缺少的一部分,也是计算性能消耗最严重的部分,在spark中有些算子会触发shuffle进行分区数据的重新规划spark中的shuffl的演变过程-spark最早的shuffle 的处理方式是,是hashShuffleManager-spark0.8的时候,对hashshufflemanager进行了优化-spark1.2的时候出现了sortshufflemanager,代替了hashshufflemanag

2021-08-13 08:43:39 127

原创 spark05

自定义排序spark中对简单的数据类型可以直接排序,但是对于一些复杂的条件加以利用自定义排序实现键值对rdd数据分区spark目前支持hash分区和range分区,用户也可以自定义分区,hash分区为当前的默认分区,spark中分区器直接决定了rdd中分区的个数,rdd中每条数据经过shuffle过程属于那个分区和reduce的个数hashpartitionerspark中非常重要的一个分区器,也是默认分区器,默认用于90%以上的rdd相关api上功能:依据rdd中的key值的has

2021-08-10 17:59:32 142

原创 spark04

rdd的函数传递主要是序列化的问题,对象在jvm中表示的方式是字节,序列化的产生是为了分布式的程序,现在需要传递给另一个机器,那么传递的过程中需要的是010101这样的字节,那么对面接收的字节如何获取,那么就需要使用序列化spark是一个分布式计算框架,从driver端将数据传递到executor的时候就需要进行序列化,总结:1如果drr转换操作中使用到了class的方法或者变量,那么该class需要支持序列化,2如果通过局部变量的方式将class中的白能量赋值为局部变量,那么不需

2021-08-10 16:11:49 92

原创 spark03

action算子和其他算子reducedef reduce(f:(T,T)=>T):T通过传入的函数进行聚合,先分区内聚合,再分区间聚合foldfold和reduce的原理相同,但是与reduce不同,相当与每个redcue时迭代器去的第一个元素是zeroValueaggregate参数:(zeroValue:U)(seqOp:(U,T)=>U,combOp:(U,U)=>U)aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合,然后

2021-08-10 14:05:08 76

原创 spark01

Spark回顾hadoopapache Hadoop软件库是一个允许使用简单的编程模型夸计算机集群处理大型数据集合的框架,设计初衷是将单个服务器扩展成上千个计算机组成一个集群为大数据提供计算服务,每个计算机都提供了本地计算和储存服务hadoop中的优缺点高可靠性:Hadoop按位存储和处理数据的能力,值得人们的信赖高扩展型:Hadoop是在可用的计算机集簇间分配数据并完成计算任务,这些集簇可以方便地扩展到数以千计的节点中.高效性:Hadoop能够存在节点间动态的移动数据,并保证各个节

2021-08-09 16:35:24 116

原创 actor模型

actor模式是一种并发模型线程通过消息传递进行合作,线程叫actormapreduce是一种典型的actor单线程编程:程序是一个工厂,只有一个工人,干所有的事儿,多线程编程-共享内存干啥都要排队多线程/分布式编程:流水线,分工明确,每个线程都是一个actor,传递消息的方式进行什么是actor:可以看做是一个个独立的实体,单体之间毫无关联,可以通过消息,让其他的实体做出对应的事件基于并发机制,scala运用消息的发送接收实现高并发actor不共享数据,避免死锁,资

2021-08-09 08:52:02 798

原创 scala总结

变量和常量的使用关键字var:定义的是变量,值是可以变化的val:定义的是常量,值是不能变化的基础语法在scala中定义变量的时候,可以不带类型,由后面的值进行自动推导 var variable = value 不去指定variable的类型后面的值进行自动推导 2.var variable:Int 使用指定的类型声明一个变量,此时前面声明的类型必须和后面的值类型一致var a=10 //不设置类型,由值自动推导类型var b:Int=0 //设置一个变

2021-08-08 22:01:37 571

原创 scala5

String interpolation(字符串插值)用途:处理字符串类型:s:字符串插值f:插值并格式化输出raw:对字符串不做任何变化输出scala在2.10.0之后引入String Interpolation,允许用户在字符串中嵌入变量的引用字符串插值器在任何字符串前加s就可以在串中使用变量了val name = "lee"println(s"Hello,$name")字符串插值也可以放表达式println(s"1+1=${1+1}")f插值器

2021-08-04 16:42:31 106

原创 scala4

模式匹配和样例类模式匹配scala没有java的switch case语法,但是提供了 match case 模式匹配不同点switch case只能匹配变量的值,match case可以匹配各种情况,变量的类型,集合的元素,有值或无值match case 语法变量 match {case 值 => 代码}如果值为下划线,表示不满足以上所有情况下的处理match case中只要一个case分支满足并处理了,就不会继续判断下一个case更好的switchsc

2021-08-03 11:47:22 161