大数据学习笔记001 - 大数据学习路线

最近在学习潭州教育的大数据课程, 对课堂笔记稍作整理

基础环境

  • centos7 64位 5台(bigdata01~05)
  • 安装JDK (java变量在最前面 PATH=$JAVA_HOME/bin:$PATH)
  • 安装Hadoop2.7.3 、HBase、Hive
  • 安装Spark 2.1.0 以及 Scala 2.11.8

Linux基础

  • 配置Linux
  1. 关闭防火墙
systemctl stop  firewalld.service
systemctl disable  firewalld.service
  1. 设置主机名和IP的对应关系
vi /etc/hosts
	192.168.199.201  bigdata201
  1. tmp目录
    • 一旦linux重启, 该目录下所有数据会删除
    • HDFS默认的数据保存目录
  • 文件目录操作命令(类似HDFS的操作命令)
  1. ls、ll、ls -a、ls -la
  2. mkdir、mkdir -p(父目录一齐创建)
  3. echo 查看环境变量
  4. cat 第一行开始 、tac 最后一行开始
  5. cp 复制
  6. rm -r 删除该目录下的所有文件 -f 强制删除文件和目录
  7. ps -ef 使用标准格式显示每个进程的信息 |grep 查询(后面紧跟参数)
  8. kill -9 强制杀死 -3 打印java进程的Thread Dump (死锁分析)
  9. tar 文件、目录打(解)包
项目说明
隐藏文件/root/.bash_profile 环境变量(用户级)
隐藏目录/root/.ssh 配置免密码登录(Hadoop和Spark)->公钥和私钥
hdfs dfs -ls /查看HDFS的根目录
hdfs dfs -mkdir /input创建HDFS输入目录
hdfs dfs -cat /input/data.txt查勘HDFS文件内容
hdfs dfs -cp /input/data.txt /input/data2.txt复制文件
hdfs dfs -rmr /input/data.txt删除文件,hdfs有回收站默认是关闭的
ps -ef|grep redis-server查redis-server进程
hdfs dfs -chmod 764 /input/data.txt在HDFS中改变文件权限
  • Linux的权限管理(非常类似HDFS的权限管理)
  1. r读、w写、x执行(文件目录的权限通过ll、ls -l)共10位
  2. 第一位-表示文件 d表示目录
  3. 后9位分成三组表示权限
项目说明rwx表示二进制表示十进制表示
第一组当前用户(读写)rw-1106
第二组同组的用户(读)r--1004
第三组其他人(读)r--1004
  • 改变权限: chmod 777 文件名( hdfs dfs -chmod 764 /input/data.txt)

JAVA基础

  • JavaSE: 面向对象,I/O输入和输出(HDFS),反射和泛型(MapReduce),JDBC(Hive)
  • 死锁分析 线程A等线程B,线程B等线程A
  • JDK head dump: 分析OOM的问题 JDK Thread Dump 分析性能瓶颈(线程信息)
  • jps命令 打印java程序和进程号
  • 得到Thread Dump -> kill -3 PID(子窗口执行,父窗口打印)
  • windows ctrl+break(Fn+B)

SQL基础

  • 增、删、改、查(Hive, Spark SQL)

Hadoop基础

  • 数据存储: HDFS
  • 数据计算: MapReduce(2.x以后运行在Yarn容器中实现离线计算)
  • Hive: 基于HDFS之上的数据仓库,支持SQL
  • HBase: 基于HDFS之上的NoSQL数据库
  • ZooKeeper: 实现HA(高可用), 实现秒杀
  • Sqoop: 数据采集引擎
  • Flume: 数据采集引擎
  • Pig: 数据分析引擎

实时计算基础

  • Redis: 内存NoSQL数据库, Redis Cluster 分布式解决方案
  • Storm: 进行实时计算(流式计算,存储到redis)

Spark

  • 只有数据计算,没有数据存储(依赖HDFS)
  • Scala编程语言: 多范式的编程语言(支持多种方式编程1. 面向对象 2. 函数式编程)
  • Spark Core: 内核,相当于MapReduce, 最重要的概念RDD(弹性分布式数据集)
  • Spark SQL: 类似Hive, 支持SQL
  • Spark Streaming: 处理流式计算的模块,类似Storm

转载于:https://my.oschina.net/crazydpenguin/blog/3066566

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值