Spark & Scala
Spark & Scala 从零开始的学习生涯
_大木_
所有的付出没有亏欠, 只为不负遇见.~
展开
-
大数据应用原理: Spark HBase操作
文章目录Shell命令基础练习HBase中创建表,并查看表HBase数据库基本操作添加数据:put命令查看数据查看表的某一行数据;查看某个表的全部数据删除数据delete命令deleteall命令删除表(删除表有两步,第一步先让该表不可用,第二步删除表)查询表历史数据退出HBase数据库表操作Shell进阶练习(1)根据上面给出的表格,用Hbase Shell模式设计学生表格a)设计完后,用scan指令浏览表的相关信息。b)查询行键为zhangshan的各科成绩信息。c)查询zhangshan 的Compu原创 2020-11-27 11:15:21 · 1006 阅读 · 0 评论 -
Linux 常用命令大全
文章目录cd命令:切换目录ls命令:查看文件与目录mkdir命令:新建新目录rmdir命令:删除空的目录cp命令:复制文件或目录mv命令:移动文件与目录,或更名rm命令:移除文件或目录cat命令:查看文件内容tac命令:反向列示more命令:一页一页翻动查看head命令:取出前面几行tail命令:取出后面几行touch命令:修改文件时间或创建新文件chown命令:修改文件所有者权限find命令:文件查找tar命令:压缩命令grep命令:查找字符串HDFS相关命令cd命令:切换目录(1)切换到目录 /us原创 2020-11-13 11:08:19 · 496 阅读 · 3 评论 -
Hadoop 实验: 熟悉常用的HDFS操作
文章目录1. 利用Hadoop提供的Shell命令完成:(1)向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,由用户指定是追加到原有文件末尾还是覆盖原有的文件;(2)从HDFS中下载指定文件,如果本地文件与要下载的文件名称相同,则自动对下载的文件重命名;(3)将HDFS中指定文件的内容输出到终端中;(4)显示HDFS中指定的文件的读写权限、大小、创建时间、路径等信息;(5)给定HDFS中某一个目录,输出该目录下的所有文件的读写权限、大小、创建时间、路径等信息,如果该文件是目录,则递归输出原创 2020-11-13 10:22:18 · 17800 阅读 · 0 评论 -
Sprak编程: 编程实现利用DataFrame读写MySQL的数据 2020.11.01
编程实现利用 DataFrame 读写 MySQL 的数据(1)在 MySQL 数据库中新建数据库 sparktest,再创建表 employee,包含如表 6-2 所示的两行数据。表 6-2 employee 表原有数据(2)配置 Spark 通过 JDBC 连接数据库 MySQL,编程实现利用 DataFrame 插入如表6-3 所示的两行数据到 MySQL 中,最后打印出 age 的最大值和 age 的总和。表 6-3 employee 表新增数据1. 登录MySql进行创建库表新建原创 2020-11-05 16:43:32 · 5819 阅读 · 1 评论 -
Spark编程: Spark SQL基本操作 2020.11.01
文章目录为employee.json 创建DataFrame, 并写出Scala语句完成下列操作:(1)查询所有数据;(2)查询所有数据,并去除重复的数据;(3)查询所有数据, 打印时去除id字段;(4)筛选出age>30 的记录;(5)将数据按age分组(6)将数据按neme升序排列(7)取出前3行数据(8)打印时修改name 的列名 为 username(9)age 的平均值(agg是聚合操作)(10)age 的最小值建下列JSON格式的数据复制到Linux系统中,并保存命名为employee.原创 2020-11-01 11:23:18 · 2192 阅读 · 0 评论 -
Spark编程:使用Spark SQL 连接数据库 2020.11.01
文章目录1.基础工作1.安装mysql2.启动和关闭mysql服务器3.进入mysql界面(若密码问题请参考以下链接)2.创建数据库和表3.spark进行数据库连接3.1 进入spark时写附加命令(前提是记得建所需要的包进行解压到spark的jars目录下)3.2 进行连接3.3 连接测试1.基础工作1.安装mysqlsudo apt-get updatesudo apt-get install mysql-server2.启动和关闭mysql服务器service mysql start原创 2020-11-01 10:27:09 · 1571 阅读 · 0 评论 -
Spark编程:数据统计操作 RDD操作 2020.10.11
某大学计算机系的成绩,数据格式如下所示:Tom,DataBase,80Tom,Algorithm,50Tom,DataStructure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,80……请根据给定的实验数据,在 spark-shell 中通过编程来计算以下内容:(1)该系总共有多少学生; val rdd= sc.textFile("file:///usr/local/spark/mycode/Data01.txt") va原创 2020-10-24 10:57:08 · 3084 阅读 · 0 评论 -
Spark编程: 编写独立应用程序求成绩平均值 2020.10.16
文章目录实现步骤1.建立目录结构2.添加配置信息3.导入代码文件(dhlTest.scala)4. 编写文件 在路径:/usr/local/spark/StuGrade 下注意: 其他类似5.打包并运行编译打包运行独立运行文件: dhlTest2.scalaimport org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.SparkConfobject dhlTest2原创 2020-10-22 21:05:25 · 4447 阅读 · 0 评论 -
Spark编程: 编写独立应用程序实现数据去重 2020.10.16
独立运行文件: dhlTest.scalaimport org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.SparkConfobject dhlTest { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("BeyondNothing_dhl")原创 2020-10-16 16:29:50 · 5586 阅读 · 1 评论 -
Spark编程:图书管理 RDD操作 2020.10.11
题目:给定一组键值对(“spark”,2),(“hadoop”,6),(“hadoop”,4),(“spark”,6),键值对的key表示图书名称,value表示某天图书销量,请计算每个键对应的平均值,也就是计算每种图书的每天平均销量。val rdd = sc.parallelize(Array(("spark",2),("hadoop",6),("hadoop",4),("spark",6)))rdd.mapValues(x=>(x,1)).reduceByKey((x,y)=>(x._原创 2020-10-11 10:03:37 · 773 阅读 · 0 评论 -
Spark编程:词频统计练习 RDD操作 2020.10.11
文章目录词频统计练习词频统计练习val lines = sc.textFile("file:///usr/local/spark/mycode/wordcount/word.txt")val wordCount = lines.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey((a,b) => a+b)wordCount.collect()wordCount.foreach(println)原创 2020-10-11 08:58:16 · 1100 阅读 · 0 评论 -
Spark & Scala scala编程案例:统计学生成绩
Scala 统计学生成绩题干学生的成绩清单格式如下所示,第一行为表头,各字段意思分别为学号、性别、课程名 1、课程名 2 等,后面每一行代表一个学生的信息,各字段之间用空白符隔开Id gender Math English Physics301610 male 80 64 78301611 female 65 87 58…给定任何一个如上格式的清单(不同清单里课程数量可能不一样),要求尽可能采用函 数式编程,统计出各原创 2020-10-04 16:43:45 · 10538 阅读 · 1 评论 -
Spark & Scala scala编程之对容器的操作
文章目录针对容器的操作1 遍历操作2 映射操作map方法(一对一映射)flatMap方法(一对多映射)3 过滤操作filter方法:接受一个返回布尔值的函数f作为参数,并将f作用到每个元素上,将f返回真值的元素组成一个新容器返回4 规约操作(reduce : 归纳)reduce方法:接受一个二元函数f作为参数,首先将f作用在某两个元素上并返回一个值,然后再将f作用在上一个返回值和容器的下一个元素上,再返回一个值,依此类推,最后容器中的所有值会被规约为一个值reduceLeft和reduceRight:前者从原创 2020-09-27 10:45:05 · 604 阅读 · 0 评论 -
Spark & Scala 输出九九乘法表
Scala 输出九九乘法表object testThree{ def main(args:Array[String]){ var i=1; var j=1; while(j<10){ while(i<j+1){ printf("%d*%d=%2d\t",i,j,i*j); i=i+1; } println(); i=1; j=j+1;}}}原创 2020-09-20 11:44:28 · 3763 阅读 · 0 评论 -
Spark & Scala 模拟图形绘制
scala 模拟图形绘制题目:对于一个图形绘制程序,用下面的层次对各种实体进行抽象。定义一个 Drawable 的特质,其包括一个 draw 方法,默认实现为输出对象的字符串表示。定义一个 Point 类表示点,其混入了 Drawable 特质,并包含一个 shift 方法,用于移动点。所有图形实体的抽象类为Shape,其构造函数包括一个 Point 类型,表示图形的具体位置(具体意义对不同的具体图形不一样)Shape 类有一个具体方法 moveTo 和一个抽象方法 zoom,其中 move原创 2020-09-20 10:28:56 · 3841 阅读 · 0 评论 -
Spark & Scala 使用脚本的方式编程计算并输出下列级数的前n项之和Sn
请用脚本的方式编程计算并输出下列级数的前n项之和Sn, 直到Sn刚好大于或者等于q为止,其中, q为大于0的整数,其值通过键盘输入.import scala.io.StdInobject TestOne{ def main(args: Array[String]) { var Sum=0.0 println("请输入q的值") var q:Int=StdIn.readInt() var i=1.0 while(Sum<q) {原创 2020-09-20 09:29:34 · 7172 阅读 · 0 评论 -
Spark & Scala IO输入输出以及文件的读取与输出
输入/输出s, f 插值方式s 不可格式化f 可以格式化读写文件文件写入文件读取原创 2020-09-17 13:41:45 · 339 阅读 · 0 评论 -
Spark & Scala 执行文件的3种方式
文章目录1.简单计算与函数(单行运行)2.scala脚本(多行运行)桌面文件路径系统文件路径HelloWorld 程序1.简单计算与函数(单行运行)2.scala脚本(多行运行)桌面文件路径系统文件路径HelloWorld 程序...原创 2020-09-17 13:00:25 · 1053 阅读 · 0 评论