自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

白色风车

小菜鸡养成记

  • 博客(17)
  • 收藏
  • 关注

原创 【大数据开发】SparkCore——进阶算子、Action算子、查看分区数的三种方式

源代码中的大写V,指的是value rdd.getNumberPartitions获取分区数量Action算子的返回值一般情况下不会是RDD[U,T]类型的,会返回一个具体的类型一、进阶算子准备工作 val sc: SparkContext = new SparkContext(new SparkConf().setMaster("local").setAppName("RDD-complicated"))1.1 aggregateByKey * Transformation算子:.

2020-09-29 20:59:38 231

原创 【大数据开发】SparkCore——Spark作业执行流程、RDD编程的两种方式、简单算子

一、Spark作业执行流程图片二、RDD编程2.1创建RDD的⼆种⽅式:1.从集合中创建RDD2.从外部存储创建RDD2.2Transformation算⼦RDD中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些应⽤到基础数据集(例如⼀个⽂件)上的转换动作。只有当发⽣⼀个要求返回结果给Driver的动作时,这些转换才会真正运⾏。这种设计让Spark更加有效率地运⾏2.3Action算子在RDD上运⾏计算,并返回结果给Driver或写⼊⽂件系统三、简

2020-09-28 23:40:55 594 1

原创 【大数据开发】scala——字符串差值器、正则表达式、Netty模型的Server和Client端的通信

一、String INTERPOLATION(字符串插值)①s:字符串插值在任何字符串前加上s,就可以直接在串中使⽤变量了字符串插值的位置也可以放表达式②f:插值并格式化输出插值f 可以对字符串进⾏格式化,类似printf:在任何字符串字⾯前加上 f,就可以⽣成简单的格式化串,功能相似于其他语⾔中的 printf 函数。③raw:对字符串不作任何变换的输出除了对字⾯值中的字符不做编码外,raw 插值器与 s 插值器在功能上是相同的。raw类似于s,但是raw对字符串内容不作任何的转换st

2020-09-28 08:25:42 227

原创 【大数据开发】SparkCore——spark小细节、wordcount

一、spark小细节spark主节点默认端口号为7077(用于内部通信)spark的webui端口号是8080spark历史任务的webui端口为4000spark选择不配置环境变量,这是因为spark中sbin下的start-all.sh 和 stop-all.sh命令和hadoop中的命令冲突了./spark-submit --master如果不指定的话也可以,但是是变化了local模式spark shell一般情况下都是用于做测试,退出spark shell命令为:quit使用local

2020-09-27 22:17:59 250

原创 【大数据开发】scala——模式匹配(类型匹配、数组匹配、列表匹配、元组匹配、样例匹配、option类型)、高阶函数(闭包、柯里化、偏函数、高阶函数和模式匹配的结合)、隐式转换和隐式函数、泛型

一、模式匹配1.1结构和概念match case的语法如下:变量 match { case 值 => 代码 }。如果值为下划线,则代表了不满⾜以上所有情况下的默认情况如何处理。此外,match case中,只要⼀个case分⽀满⾜并处理了,就不会继续判断下⼀个case分⽀了。(与Java不同,java的switch case需要⽤break阻⽌)(1)使⽤|分割多个选项(表示“或”)(2)可以给模式添加守卫_01_matchTest11.2类型匹配Scala的模式匹配⼀个强⼤之处就在于,

2020-09-27 08:19:49 199

原创 【大数据开发】scala练习题——类、list、map综合和抽象类、继承、特质综合

一、类、list、map综合package day05/** * 1、 读取以上数据,将信息存入到List[Score]中 * 2、 计算所有的成绩中的最高成绩、最低成绩、总成绩和平均成绩 * 3、 计算所有的成绩中的及格学生的最高成绩、最低成绩、总成绩和平均成绩 * 4、 将集合中的数据,按照成绩降序排列 * 5、 计算不及格的学生中的最高成绩的学生姓名、科目、成绩 * 6、 分别计算男生的数量和女生的数量 * 7、 分别计算所有成绩中, 男生的最高成绩和对应的姓名、女生的最高成绩和对

2020-09-26 11:15:16 318

原创 【大数据开发】scala——类、object(单例模式、伴生对象)、apply方法和unaplly方法、继承、向下转型和向上转型、抽象类、特质、枚举、样例类

一、类定义完属性后,需要给属性设置值,一般情况下,我们使用_设置这个类型的默认的值注意null值的使用,如果用的是null值,那个scala就不能自动推导出数据类型(非要用,那么请指定null的类型)scala中的class默认都是私有的,但是我们可以在类外去访问,这是因为scala会自动提供getter 和setter方法给我们使用1.1 自定义setter和getter方法下面自定义setter和getter方法scala风格的setter/getter的写法1.定义一个private

2020-09-24 21:21:01 323

原创 【大数据开发】scala练习

package day03import scala.collection.mutableimport scala.collection.mutable.ListBuffer/** * 1. 创建一个List(3,2,4,6,7,5,1,0,9,8) * 将list中每个元素乘以2后生成一个新的集合 * 将list1中的偶数取出来生成一个新的集合 * 将list1排序后生成一个新的集合 * 反转排序顺序 * 将list1中的元素4个一组方法(grouped),看一下是什么数据类型 *

2020-09-24 09:22:36 171

原创 【大数据开发】scala——tuple、list(含高阶方法)、wordcount案例、set、并行处理数据和sorted、sortBy、sortWith的区别

一、元组1.1元组的定义、遍历object _01_Tuple { def main(args: Array[String]): Unit = { // 元组 // 1. 定义一个元组 val tuple: (String, String, Int, Double, Int) = ("Lily", "female", 100, 173.5, 65) // 2. 获取元组中的元素 println(tuple._1)

2020-09-23 21:54:15 444

原创 【大数据开发】scala集合练习题

设计方法,计算斐波那契数列指定位的数字(递归)object HomeWork1 { def main(args: Array[String]): Unit = { for (num <- 0 until 50){ println(fib(num)) } } def fib(num:Long): Long ={ if (num==0) 0 else if (n..

2020-09-22 21:40:46 539

原创 【大数据开发】scala——scala简介、基础、变量和常量、类型层级关系

一、scala简介面向对象:scala是一种面向对对象的语言,每一个值都是一个对象,包括基本数据类型函数式编程:静态类型:每一个变量在定义完就已经确。scala具备类型系统,通过编译时检查,保证代码的安全性和一致性。扩展性:scala可以以库的形式轻易无缝添加新的语言结构。然和方法都可勇总前缀和后缀操作符并发性:scala特点:函数是一等公民:指的是函数和其他数据类型是一样的,处于平等地位,可以赋值给其他变量,也可以作为作为参数,传递给另一个函数,或者作为别的函数的返回值为表达式为中心

2020-09-21 21:26:54 517

原创 【大数据开发】scala练习01

第一题package day01/** * 1.百钱百鸡: 一只母鸡5元,一只公鸡3元,一只小鸡1/3元。 * 现在要用100元钱买100只鸡,列出所有的购买方案。 */object HomeWork1 { def main(args: Array[String]): Unit = { var n=0 for (hen <- 0 to 20; rooster <- 0 to 33; poult <- 0 to 100; if ((hen*

2020-09-21 20:40:38 511

原创 【大数据开发】sqoop学习总结和踩过的坑

结论(所有显示一个 - 的都是两个 – 放csdn就这个样子了,我也没办法)where 子句要加单引号,query 要加双引号或者单引号,其他都不要加单引号或者双引号,具体区别看下面–1. 如果使用–query 不能使用–table–2. 如果使用–query, select语句中必须要有where子句,子句中必须要有$ CONDITIONS–3. select语句可以使用单引号,也可以使用双引号,如果使用双引号,那么$ 必须加转义字符–4. 如果使用–query,需要指定切分字段,也就是参数–

2020-09-19 16:53:40 1147

原创 【大数据开发】sqoop报错汇总

解决办法:删除该目录解决办法:cp /usr/local/hive/lib/hive-shims-* /usr/local/sqoop/lib/解决办法:cp /usr/local/hive/lib/hive-common-1.1.0-cdh5.13.2.jar /usr/local/sqoop/lib/没有hive环境,需要分发一个hive到该机器4.hive存在状态88,则说明这个名为“mydb”的数据库没有创建创建mydb数据库即可...

2020-09-19 16:52:43 403

原创 【大数据开发】nginx和openresty总结

1.-c要和-p选项一起用2.-h选项一定要会3.什么不能打开错误日志云云,不用看,直接看下面的报错就可以这里是因为event写错了,改成events,然后又报错这里说什么找不到nginx的pid,找不到pid的错误,那就是-p和-t写错了,照着-h选项抄成一样的就不会报错,神奇openresty -p /usr/local/openresty/nginx/ -c conf/my.conf -t或者使用下面的命令也可以...

2020-09-19 16:51:52 359

原创 【大数据开发】Hive错误

Hive错误错误1:org.apache.thrift.transport.TTransportException: java.net.SocketException: Connection reset by peer: socket write error解决方式:mysql数据库连接太久了,断开重连错误2:SemanticException [Error 10001]: Line 2:5 Table not found 'student'解决方式:语言异常:找不到表student指定

2020-09-19 16:50:42 4234

原创 【大数据开发】Hive总结

Hive总结1.left semi join:当join了多张表的时候,把semi join 放在最后面去,因为semi join右边的表只能用在它后面第一个on中,并且它查询出来的表是左边做完内连接之后的数据,不会再包含右表的数据。2.distinct和group by都有去重的效果...

2020-09-19 16:49:43 393

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除