大数据的复习
- 大数据的思维方式 选择题 相关而非因果,效率而非精确
- 大数据的基本特征 四个 处理速度快 数据类型多 价值密度大 数据量大
- Hadoop 是基于Java语言开发的 基于谷歌提出 的
- 填空题 奠定了基础 起源 Apache Lucene项目的创始人 Doug Cutting开发 文本搜索库
- Hadoop的生态系统:HDFS MapReduce Yarn HBse Hive PIg 十分 至少五个 并且要写出功能 课本page34
- Hadoop的运行模式 三种 单机模式 伪分布式模式 分布式模式
- 开发工具 eclipse
- 配置文件 四十六页 配置文件的名称 xml 文件 core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml 端口号9000
- 58页体系结构 :名称节点 客户端 和数据节点
- 59页hdfs的访问过程三点:
1.首先 用户的应用程序通过HDFS的客户端将文件名发送到名称节点
2.名称节点接收到文件名之后,在HDFS 目录中检索文件名对应的数据块,再根据数据块信息找到保存数据块的数据节点地址 ,将这些地址回送给客户端
3.客户端接收到这些数据节点地址之后 ,与这些数据节点并行的进行数据传输操作,同时将操作结果的相关日志提交到名称节点
11.64页默认的工作路径是什么 :user/<currentUser>
12.66页 cp 命令 mv命令 rm命令删除一个文件 70页上传下载命令 put get 72页 chown命令 改变所有者 和课本例子是一样的
Hadoop fs –cp student.txt a.txt hadoop fs –cp a.txt /test/b.txt
Hadoop fs –cp student.txt a.txt /t1
Hadhoop fs –mv a.txt b.txt hadhoop fs –mv a.txt /test/c.txt
Hadhoop fs –mv c.txt d.txt /t1
Hadoop fs –rm a.txt hadoop fs –rm –f a.txt
Hadoop fs –touchz z.txt
Hadoop fs –put a.sh / hadoop fs –put a.sh /c.sh
Hadoop fa =get /user/jmxx/student.txt ~/a.txt
Hadoop fs –chown student a.txt
Hadoop fs –put a.sh b.sh /test
hadoop fs –put –f *.txt *.sh /use/jmxx/test1
hadoop fs –put -t.c
13.hbase面向列表的分布式开源实现是谷歌table的
14.104页系统架构 由哪三部分组成分别是Region Server服务器群和HBase Master服务器构成
- shell命令110页 三个题每个两分
- 怎样建表 create 输入 hbash 进入交互命令行状态
Create `nsl :t1`,{NAME=>’F1’,VERSION=>5}创建表t1 命名空间为nsl 列族为f1. 版本数为5
Create ‘a’,’b’,’c’
Create ‘student’,’sno’,’sname’,’sex’,{NAME=>’sage,VERSION=>3}
-
- desc用于显示表的结构
desc‘student’用于显示表的结构
-
- put 向表中添加数据 都是字符串
- put ‘student’,’150001’,’snaem’,’lia\ming’
- put 向表中添加数据 都是字符串
put ‘student ‘,’150001,’sname:nickname’,’pepp er‘
-
- get
- get ‘student’,’150001’
- get ‘student’,’150001’,’sage’
- get ‘student’.’150001’,’sname:nickname’
- get ‘student’,’15001’,{COLUMN=>’sage’,VERSION=>3}
- 货物student行键15001 列族sage多个版本的值 并且指定时间戳的范围
- get
get ‘student’,’15001’,{COLUMN=>’sage’,VERSION=>3,TIMERANGE=>[1517875955236,15157875958588]}
5.list用于列出HBASE中的表,
List ‘abc.*’ list ‘ns:abc.*’
6.drop删除表
Drop ‘t1’
- 数据仓库 141页 数据在hdfs中四中基本类型
内部表 外部表 分区 和桶
- Hive是一个基于Hadoop的数据仓库工具 能够提供简单的类SQL 编程功能
- 152页 创建数据的操作 打开数据库 创建表不考
- 创建数据库 create datebase test
- 打开数据库
- show 表的名称
- USE datebase_name; 将某个数据库设置为用户当前的数据库
- 159页 查询
- 164页查询的例子 装入不考 只靠查询 语句 考三个 链接 外连接 join 分组 过滤166页
- Select a.sno,a.sname,b.cno,b.grade from student a join sc b on s.sno=b.sno;
- Select a.sno,a.sname,b.cno,b.grade from student a join sc b on s.sno=b.sno and b.grade>80;
- Select a.sno,a.sname,b.cno,b.grade from student a join sc b on s.sno=b.sno where b.grade>80;
分组:select sno,count (*),avg (sage) from sc group by sno;
分组过滤: select sno ,count (*),avg (grade) from sc group by sno having couont (*)>1;
- MapReduce 会Wordcount ,实例 去重复的 行不让重复
- 179页shufle过程 map端和reduce端
- 序列化 看一看 有点印象 输入 188页 文件输入 文本输入 输出 文件文本输出 默认为文本输出
- MapReduce编程 靠两个 最后一个不考 就考原题 mian函数头文件不用写 ,自连接不考
- 220页 Spark Scale语言编写的内存计算框架 支持Sale Java 和Python语言的的API 接口 选择题
- 221页 spark 主要的使用场景:
- 迭代式算法 交互式数据分析 流应用
- 222页Spark生态系统四部分组成
- 资源管理层
- 数据存储层
- Spark核心层
- Spark组件层
- Spark SQL
- Spark Streaming
- Mlib
- GRaphX
- 225页 部署模式 哪几种四种
- 1.local本地模式
- 2. standalone模式
- 3. mesos模式
- 4.Yarn模式
- 第八章考两个 一个两分
1.254页map将原rdd中的每一个元素都加上2来产生一个新的RDD
Scala >val rdda=sc.parallelize(1 to 4,3)
Scala > val rddb=rdda.map (x=x+2)
Scala >rdda.collect
Reso:Array [Int]=Array(1,2,3,4)
Scale> rddb.collect
Res1;Array [Int]=Array(3,4,5,6)
2.flatmap
Scala> val rdda =sc.parallelize(List(List(1,2),List(3,4),List(5,6,7))
Scala>val rddb=rdda.,map (x=>x)
Scala>val rddc=rdda.faltMap(x=>x)
Scala>rddb.collect
Res3:Arry[List[Int]]=Arry(List(1,2),List(3,4),List(5,6,7))
Scala>rddc.collect
Res4:Array [Int]=Array (1,2,3,4,5,6,7)
mapvalues
scala > val rdd =sc.parallelize(List(“a",1) (“b",2) (“c",3),(“d”,4))
scala>rdd,mapValues(x=>x+1).collect
res5:Array [(String,Int)]=Array((a,2),(b,3),(c,4)(d,5))
distinct 259页
scala >val a=sc.parellelize(List(1,2,3,5,3,9,32),2)
scala>a.distinct.collect
res1:Array [String]=Array (1,2,3,5,9)
scala >val b=sc.parallelize(List (1,2,3,4,5,6,7,8,9,10))
scala>b.distinct(3).partitions.lenth
res2:Int=3
14 15看看 collect264页collect用于将一个RDD转换成数组
Def collect() : Array [T]