2020年09月_这个妹妹我见过

原创【大数据开发】SparkCore——进阶算子、Action算子、查看分区数的三种方式

源代码中的大写V，指的是value rdd.getNumberPartitions获取分区数量Action算子的返回值一般情况下不会是RDD[U,T]类型的，会返回一个具体的类型一、进阶算子准备工作 val sc: SparkContext = new SparkContext(new SparkConf().setMaster("local").setAppName("RDD-complicated"))1.1 aggregateByKey * Transformation算子:.

2020-09-29 20:59:38 231

原创【大数据开发】SparkCore——Spark作业执行流程、RDD编程的两种方式、简单算子

一、Spark作业执行流程图片二、RDD编程2.1创建RDD的⼆种⽅式：1.从集合中创建RDD2.从外部存储创建RDD2.2Transformation算⼦RDD中的所有转换都是延迟加载的，也就是说，它们并不会直接计算结果。相反的，它们只是记住这些应⽤到基础数据集（例如⼀个⽂件）上的转换动作。只有当发⽣⼀个要求返回结果给Driver的动作时，这些转换才会真正运⾏。这种设计让Spark更加有效率地运⾏2.3Action算子在RDD上运⾏计算,并返回结果给Driver或写⼊⽂件系统三、简

2020-09-28 23:40:55 594 1

原创【大数据开发】scala——字符串差值器、正则表达式、Netty模型的Server和Client端的通信

一、String INTERPOLATION(字符串插值)①s：字符串插值在任何字符串前加上s，就可以直接在串中使⽤变量了字符串插值的位置也可以放表达式②f：插值并格式化输出插值f 可以对字符串进⾏格式化,类似printf:在任何字符串字⾯前加上 f，就可以⽣成简单的格式化串，功能相似于其他语⾔中的 printf 函数。③raw：对字符串不作任何变换的输出除了对字⾯值中的字符不做编码外，raw 插值器与 s 插值器在功能上是相同的。raw类似于s，但是raw对字符串内容不作任何的转换st

2020-09-28 08:25:42 227

原创【大数据开发】SparkCore——spark小细节、wordcount

一、spark小细节spark主节点默认端口号为7077（用于内部通信）spark的webui端口号是8080spark历史任务的webui端口为4000spark选择不配置环境变量，这是因为spark中sbin下的start-all.sh 和 stop-all.sh命令和hadoop中的命令冲突了./spark-submit --master如果不指定的话也可以，但是是变化了local模式spark shell一般情况下都是用于做测试，退出spark shell命令为:quit使用local

2020-09-27 22:17:59 250

原创【大数据开发】scala——模式匹配（类型匹配、数组匹配、列表匹配、元组匹配、样例匹配、option类型）、高阶函数（闭包、柯里化、偏函数、高阶函数和模式匹配的结合）、隐式转换和隐式函数、泛型

一、模式匹配1.1结构和概念match case的语法如下：变量 match { case 值 => 代码 }。如果值为下划线，则代表了不满⾜以上所有情况下的默认情况如何处理。此外，match case中，只要⼀个case分⽀满⾜并处理了，就不会继续判断下⼀个case分⽀了。（与Java不同，java的switch case需要⽤break阻⽌）（1）使⽤|分割多个选项（表示“或”）（2）可以给模式添加守卫_01_matchTest11.2类型匹配Scala的模式匹配⼀个强⼤之处就在于，

2020-09-27 08:19:49 199

原创【大数据开发】scala练习题——类、list、map综合和抽象类、继承、特质综合

一、类、list、map综合package day05/** * 1、读取以上数据，将信息存入到List[Score]中 * 2、计算所有的成绩中的最高成绩、最低成绩、总成绩和平均成绩 * 3、计算所有的成绩中的及格学生的最高成绩、最低成绩、总成绩和平均成绩 * 4、将集合中的数据，按照成绩降序排列 * 5、计算不及格的学生中的最高成绩的学生姓名、科目、成绩 * 6、分别计算男生的数量和女生的数量 * 7、分别计算所有成绩中，男生的最高成绩和对应的姓名、女生的最高成绩和对

2020-09-26 11:15:16 318

原创【大数据开发】scala——类、object（单例模式、伴生对象）、apply方法和unaplly方法、继承、向下转型和向上转型、抽象类、特质、枚举、样例类

一、类定义完属性后，需要给属性设置值，一般情况下，我们使用_设置这个类型的默认的值注意null值的使用，如果用的是null值，那个scala就不能自动推导出数据类型（非要用，那么请指定null的类型）scala中的class默认都是私有的，但是我们可以在类外去访问，这是因为scala会自动提供getter 和setter方法给我们使用1.1 自定义setter和getter方法下面自定义setter和getter方法scala风格的setter/getter的写法1.定义一个private

2020-09-24 21:21:01 323

原创【大数据开发】scala练习

package day03import scala.collection.mutableimport scala.collection.mutable.ListBuffer/** * 1. 创建一个List(3,2,4,6,7,5,1,0,9,8) * 将list中每个元素乘以2后生成一个新的集合 * 将list1中的偶数取出来生成一个新的集合 * 将list1排序后生成一个新的集合 * 反转排序顺序 * 将list1中的元素4个一组方法(grouped),看一下是什么数据类型 *

2020-09-24 09:22:36 171

原创【大数据开发】scala——tuple、list（含高阶方法）、wordcount案例、set、并行处理数据和sorted、sortBy、sortWith的区别

一、元组1.1元组的定义、遍历object _01_Tuple { def main(args: Array[String]): Unit = { // 元组 // 1. 定义一个元组 val tuple: (String, String, Int, Double, Int) = ("Lily", "female", 100, 173.5, 65) // 2. 获取元组中的元素 println(tuple._1)

2020-09-23 21:54:15 444

原创【大数据开发】scala集合练习题

设计方法，计算斐波那契数列指定位的数字（递归）object HomeWork1 { def main(args: Array[String]): Unit = { for (num <- 0 until 50){ println(fib(num)) } } def fib(num:Long): Long ={ if (num==0) 0 else if (n..

2020-09-22 21:40:46 539

原创【大数据开发】scala——scala简介、基础、变量和常量、类型层级关系

一、scala简介面向对象：scala是一种面向对对象的语言，每一个值都是一个对象，包括基本数据类型函数式编程：静态类型：每一个变量在定义完就已经确。scala具备类型系统，通过编译时检查，保证代码的安全性和一致性。扩展性：scala可以以库的形式轻易无缝添加新的语言结构。然和方法都可勇总前缀和后缀操作符并发性：scala特点：函数是一等公民：指的是函数和其他数据类型是一样的，处于平等地位，可以赋值给其他变量，也可以作为作为参数，传递给另一个函数，或者作为别的函数的返回值为表达式为中心

2020-09-21 21:26:54 517

原创【大数据开发】scala练习01

第一题package day01/** * 1.百钱百鸡: 一只母鸡5元，一只公鸡3元，一只小鸡1/3元。 * 现在要用100元钱买100只鸡，列出所有的购买方案。 */object HomeWork1 { def main(args: Array[String]): Unit = { var n=0 for (hen <- 0 to 20; rooster <- 0 to 33; poult <- 0 to 100; if ((hen*

2020-09-21 20:40:38 511

原创【大数据开发】sqoop学习总结和踩过的坑

结论（所有显示一个 - 的都是两个 – 放csdn就这个样子了，我也没办法）where 子句要加单引号，query 要加双引号或者单引号，其他都不要加单引号或者双引号，具体区别看下面–1. 如果使用–query 不能使用–table–2. 如果使用–query, select语句中必须要有where子句，子句中必须要有$ CONDITIONS–3. select语句可以使用单引号，也可以使用双引号，如果使用双引号，那么$ 必须加转义字符–4. 如果使用–query，需要指定切分字段，也就是参数–

2020-09-19 16:53:40 1147

原创【大数据开发】sqoop报错汇总

解决办法：删除该目录解决办法：cp /usr/local/hive/lib/hive-shims-* /usr/local/sqoop/lib/解决办法：cp /usr/local/hive/lib/hive-common-1.1.0-cdh5.13.2.jar /usr/local/sqoop/lib/没有hive环境，需要分发一个hive到该机器4.hive存在状态88，则说明这个名为“mydb”的数据库没有创建创建mydb数据库即可...

2020-09-19 16:52:43 403

原创【大数据开发】nginx和openresty总结

1.-c要和-p选项一起用2.-h选项一定要会3.什么不能打开错误日志云云，不用看，直接看下面的报错就可以这里是因为event写错了，改成events，然后又报错这里说什么找不到nginx的pid，找不到pid的错误，那就是-p和-t写错了，照着-h选项抄成一样的就不会报错，神奇openresty -p /usr/local/openresty/nginx/ -c conf/my.conf -t或者使用下面的命令也可以...

2020-09-19 16:51:52 359

原创【大数据开发】Hive错误

Hive错误错误1：org.apache.thrift.transport.TTransportException: java.net.SocketException: Connection reset by peer: socket write error解决方式：mysql数据库连接太久了，断开重连错误2：SemanticException [Error 10001]: Line 2:5 Table not found 'student'解决方式：语言异常：找不到表student指定

2020-09-19 16:50:42 4234

原创【大数据开发】Hive总结

Hive总结1.left semi join：当join了多张表的时候，把semi join 放在最后面去，因为semi join右边的表只能用在它后面第一个on中，并且它查询出来的表是左边做完内连接之后的数据，不会再包含右表的数据。2.distinct和group by都有去重的效果...

2020-09-19 16:49:43 393

白色风车