大数据复习指导

最新推荐文章于 2024-01-07 19:19:45 发布

Lbaci

最新推荐文章于 2024-01-07 19:19:45 发布

阅读量312

点赞数 1

分类专栏： Linux

本文链接：https://blog.csdn.net/qq_41826183/article/details/85090528

版权

Linux 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

大数据的复习

大数据的思维方式选择题相关而非因果，效率而非精确
大数据的基本特征四个处理速度快数据类型多价值密度大数据量大
Hadoop 是基于Java语言开发的基于谷歌提出的
填空题奠定了基础起源 Apache Lucene项目的创始人 Doug Cutting开发文本搜索库
Hadoop的生态系统：HDFS MapReduce Yarn HBse Hive PIg 十分至少五个并且要写出功能课本page34
Hadoop的运行模式三种单机模式伪分布式模式分布式模式
开发工具 eclipse
配置文件四十六页配置文件的名称 xml 文件 core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml 端口号9000
58页体系结构：名称节点客户端和数据节点
59页hdfs的访问过程三点：

1.首先用户的应用程序通过HDFS的客户端将文件名发送到名称节点

2.名称节点接收到文件名之后，在HDFS 目录中检索文件名对应的数据块，再根据数据块信息找到保存数据块的数据节点地址，将这些地址回送给客户端

3.客户端接收到这些数据节点地址之后，与这些数据节点并行的进行数据传输操作，同时将操作结果的相关日志提交到名称节点

11.64页默认的工作路径是什么：user/<currentUser>

12.66页 cp 命令 mv命令 rm命令删除一个文件 70页上传下载命令 put get 72页 chown命令改变所有者 和课本例子是一样的

Hadoop fs –cp student.txt a.txt hadoop fs –cp a.txt /test/b.txt

Hadoop fs –cp student.txt a.txt /t1

Hadhoop fs –mv a.txt b.txt hadhoop fs –mv a.txt /test/c.txt

Hadhoop fs –mv c.txt d.txt /t1

Hadoop fs –rm a.txt hadoop fs –rm –f a.txt

Hadoop fs –touchz z.txt

Hadoop fs –put a.sh / hadoop fs –put a.sh /c.sh

Hadoop fa =get /user/jmxx/student.txt ~/a.txt

Hadoop fs –chown student a.txt

Hadoop fs –put a.sh b.sh /test

hadoop fs –put –f *.txt *.sh /use/jmxx/test1

hadoop fs –put -t.c

13.hbase面向列表的分布式开源实现是谷歌table的

14.104页系统架构由哪三部分组成分别是Region Server服务器群和HBase Master服务器构成

shell命令110页三个题每个两分
1. 怎样建表 create 输入 hbash 进入交互命令行状态

Create `nsl :t1`,{NAME=>’F1’,VERSION=>5}创建表t1 命名空间为nsl 列族为f1. 版本数为5

Create ‘a’,’b’,’c’

Create ‘student’,’sno’,’sname’,’sex’,{NAME=>’sage,VERSION=>3}

1. desc用于显示表的结构

desc‘student’用于显示表的结构

1. put 向表中添加数据 都是字符串
  1. put ‘student’,’150001’,’snaem’,’lia\ming’

put ‘student ‘,’150001,’sname:nickname’,’pepp er‘

1. get
  1. get ‘student’,’150001’
  2. get ‘student’,’150001’,’sage’
  3. get ‘student’.’150001’,’sname:nickname’
2. get ‘student’,’15001’,{COLUMN=>’sage’,VERSION=>3}
3. 货物student行键15001 列族sage多个版本的值并且指定时间戳的范围

get ‘student’,’15001’,{COLUMN=>’sage’,VERSION=>3,TIMERANGE=>[1517875955236,15157875958588]}

5.list用于列出HBASE中的表，

List ‘abc.*’ list ‘ns:abc.*’

6.drop删除表

Drop ‘t1’

数据仓库 141页数据在hdfs中四中基本类型

内部表外部表分区和桶

Hive是一个基于Hadoop的数据仓库工具能够提供简单的类SQL 编程功能
152页创建数据的操作打开数据库创建表不考
1. 创建数据库 create datebase test
2. 打开数据库
  1. show 表的名称
  2. USE datebase_name; 将某个数据库设置为用户当前的数据库

159页查询
164页查询的例子装入不考只靠查询语句考三个链接外连接 join 分组过滤166页
1. Select a.sno,a.sname,b.cno,b.grade from student a join sc b on s.sno=b.sno;
2. Select a.sno,a.sname,b.cno,b.grade from student a join sc b on s.sno=b.sno and b.grade>80;
3. Select a.sno,a.sname,b.cno,b.grade from student a join sc b on s.sno=b.sno where b.grade>80;

分组：select sno,count (*),avg (sage) from sc group by sno;

分组过滤： select sno ,count (*),avg (grade) from sc group by sno having couont (*)>1;

MapReduce 会Wordcount ,实例去重复的行不让重复
179页shufle过程 map端和reduce端
序列化看一看有点印象输入 188页文件输入 文本输入 输出文件文本输出默认为文本输出
MapReduce编程靠两个最后一个不考 就考原题 mian函数头文件不用写，自连接不考
220页 Spark Scale语言编写的内存计算框架支持Sale Java 和Python语言的的API 接口选择题
221页 spark 主要的使用场景：
1. 迭代式算法交互式数据分析流应用
222页Spark生态系统四部分组成
1. 资源管理层
2. 数据存储层
3. Spark核心层
4. Spark组件层
  1. Spark SQL
  2. Spark Streaming
  3. Mlib
  4. GRaphX
225页部署模式哪几种四种
1. 1.local本地模式
2. 2. standalone模式
3. 3. mesos模式
4. 4.Yarn模式
第八章考两个一个两分