Hadoop(入门笔记)
BigData(大数据):无法再一定范围内用常规测量软件的工具海量,高增长率和多样化的信息产物。
Hadoop里面有Hadoop生态圈
Hadoop应用于解决海量数据的存储(HDFS),海量数据的分析(MapReduce),资源管理调度(YARN)
Hadoop擅长海量的离线日志分析,实时采集数据进行信息派送。
解决存储问题的思路:从节点到文件夹来共享数据 —缺点比较大,有局限性。
伪分布式安装步骤
关闭防火墙,修改IP 修改hostname 设置登录jdk 安装Hadoop
查看机器的基本内容 #ifconfig
查看防火墙:service iptables status
修改Linux的ip serup 配置网络 或者
static 静态 NETEWAY=“修改怕地址” IPADDR="子网掩码 " GATEWAY=“修改网关”
关闭防火墙:service iptables stop
查看防火墙:service IP tables status
重新启动后虚拟机:reboot
查看主机名:# hostname
windows系统ping虚拟机 可以双ping 相互的
搭建hadoop搭建
多线程学习
数据库高级一定要学会了
匿名函数
只new,不出对象
大数据在有限的工具下进行数据分析采集
大数据最基本的数据流程
十死无生,九死一生。
1.立项 =》数据采集=》数据清洗=》数据模型构建(最难)《=》数据分析=》数据重现
2.数据采集 :
python=》scrapy
用户直会接提供mysql 各种的资料表csv excel 日志文件等
logstash
fluneme
3.数据清洗:
mysql
hive 外部表内部表等等一些
hbase 把我不需要的信息藏起来
4.建模
hive
5.分析
Java
hive(运行速度慢)
spark
spark-sql
spark-graphx
spark-streaming
python-numpy
6.数据呈现
Java javascript
zeppline (数据呈现)
python-matplotlib
python-panads
…
7.数据传输
kafka
8.数据存储
hdfs 系统
redis
cassandrs
9.工作流
oozie
azkaban
10.ml(机器学习)
TensorFlow
ps:
sqoop
[外链图片转存失败(img-RFixXiQl-1567130585817)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1566803696910.png)]
Linux吃内存严重 需要用docker容器,里面有一块Linux集体使用,不会多次重复。
docker安装tomcat(猫)(Linux系统docker)
详细网站:https://www.cnblogs.com/yufeng218/p/8370670.html
1.安装需要的软件包, yum-util 提供yum-config-manager功能,另外两个是devicemapper驱动依赖的
$ sudo yum install -y yum-utils device-mapper-persistent-data lvm2
2.设置yum源
$ sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo
3.安装docker
$ sudo yum install docker-ce #由于repo中默认只开启stable仓库,故这里安装的是最新稳定版17.12.0
[外链图片转存失败(img-8TQermuD-1567130585819)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1566806438858.png)]
//阿里云配置镜像加速器
[root@bigdata ~]# tee /etc/docker/daemon.json <<-'EOF'
{
"registry-mirrors": ["https://7now90q7.mirror.aliyuncs.com"]
}
EOF
tee: /etc/docker/daemon.json: No such file or directory
{
"registry-mirrors": ["https://7now90q7.mirror.aliyuncs.com"]
}
[root@bigdata ~]# systemctl daemon-reload
[root@bigdata ~]# systemctl restart docker
//查看镜像文件
[root@bigdata ~]# docker images
REPOSITORY TAG IMAGE ID CREATED SIZE
//安装 猫:8
[root@bigdata ~]# docker pull tomcat:8
8: Pulling from library/tomcat
9cc2ad81d40d: Pull complete
e6cb98e32a52: Pull complete
ae1b8d879bad: Pull complete
42cfa3699b05: Pull complete
8d27062ef0ea: Pull complete
9b91647396e3: Pull complete
7498c1055ea3: Pull complete
a183d8c2c929: Pull complete
73dd800dda4c: Pull complete
2bc71ef979ec: Pull complete
Digest: sha256:80db17f3efd9cdcd9af7c799097fe0d223bbee8f25aa36234ab56292e3d8bd7b
Status: Downloaded newer image for tomcat:8
docker.io/library/tomcat:8
//查看镜像文件
[root@bigdata ~]# docker images
REPOSITORY TAG IMAGE ID CREATED SIZE
tomcat 8 96c4e536d0eb 17 hours ago 506MB
//查看运行中的容器
[root@bigdata ~]# docker ps
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
//-p 8080:8080(前面一个代表在虚拟机上你的映射接口(端口可以改变,只要不打架就
// 行):后面一个代表原始的端口(一般情况下不能改变))
[root@bigdata ~]# docker run -d --name tomcat1 -p 8088:8080 96c4e536d0eb
78806b768ecd6e4fa8e86b44e71c6624096e9e54c50758b5baacd9df0ca4cda9
//查看运行中的容器
[root@bigdata ~]# docker ps
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
78806b768ecd 96c4e536d0eb "catalina.sh run" 8 seconds ago Up 7 seconds 0.0.0.0:8088->8080/tcp tomcat1
//安装Mysql:5.6
[root@bigdata ~]# docker pull mysql:5.6
5.6: Pulling from library/mysql
9fc222b64b0a: Pull complete
291e388076f0: Pull complete
d6634415290b: Pull complete
1f1e7d852ad4: Pull complete
125fc05f36e0: Pull complete
02b27e2441e9: Pull complete
a35058f56a00: Pull complete
b43480ce332f: Pull complete
5d14b8fc327c: Pull complete
423bd0b47bd7: Pull complete
189667c449a5: Pull complete
Digest: sha256:e2388e706b4e90b2f558126f98eda5b38fc36c9d220468a10535778e28707e2f
Status: Downloaded newer image for mysql:5.6
docker.io/library/mysql:5.6
//查看镜像文件
[root@bigdata ~]# docker images
REPOSITORY TAG IMAGE ID CREATED SIZE
tomcat 8 96c4e536d0eb 17 hours ago 506MB
mysql 5.6 732765f8c7d2 8 days ago 257MB
//设置mysql的用户名,端口号,密码等
[root@bigdata ~]# docker run -d --name mysql1 -p 3360:3306 -e MYSQL_ROOT_PASSWORD=ok 732765f8c7d2
9faf857459217927f180c52c60cbcaa3ddaeb1b0464101989d686e9c2aa5d1a2
//查看当前运行容器的进程
[root@bigdata ~]# docker ps
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
9faf85745921 732765f8c7d2 "docker-entrypoint.s…" 5 seconds ago Up 4 seconds 0.0.0.0:3360->3306/tcp mysql1
78806b768ecd 96c4e536d0eb "catalina.sh run" 14 minutes ago Up 14 minutes 0.0.0.0:8088->8080/tcp tomcat1
[root@bigdata ~]#
大数据讲究的计算机就是数量(多)等级不一定要太高
用docker安装tomcat的过程
docker
search 查询 docker search tomcat
下载光盘
pull 下载(从镜像仓库中拉去或者更新指定镜像) docker pull tomcat [:8](image)
run 创建一个新的容器并运行一个命令
–name 起名字
例:使用docker镜像nginx:latest以后台模式启动一个容器,并将容器命名为mynginx。
docker run --name mynginx -d nginx:latest
-p 8080:8080(前面一个代表在虚拟机上你的映射接口(端口可以改变,只要不打架就 行):后面一个代表原始的端口(一般情况下不能改变))
指定端口映射,格式为:主机(宿主)端口:容器端口
-v 代表映射容器内的文件夹:虚拟机上的文件夹 绑定一个卷
-e 配置环境用的
-d 后台返回容器,并返回容器ID; 代表容器在后端运行不占领窗口
ps 查看运行中的容器
ps -a 查看所有的容器,包括未运行的容器
stop/start/restart(停止/运行/重启)容器
rm 删除容器
rmi 删除镜像
大数据三个版本
1.Apsche 啊啪其 乞丐版
2.CDH----? 补丁版 豪华版
3.HDP—X 北美老师 豪华版
进入北美大数据虚拟机步骤
1.用户名:root
2.密码:hadoop ls查看
3.进入Xshell6 -->> 新建会话
[外链图片转存失败(img-QTUcEETP-1567130585819)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1566816938500.png)]
[外链图片转存失败(img-8N3EEm8s-1567130585821)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1566817054837.png)]
接受并保存
输入# docker ps
没有3306 端口,自行改进脚本
关闭当前所有程序:
[root@sandbox-host ~]# docker stop e735d0e6fde6
删除:容器编号e735d0e6fde6
[root@sandbox-host ~]# docker rm e735d0e6fde6
进入修改
[root@sandbox-host start_scripts]# vi start_sandbox-hdp.sh
docker run --name sandbox-hdp --hostname "sandbox-hdp.hortonworks.com" --privileged -d \
-p 3306:3306 \ 表示一条命令没结束进入下一行
启动所有服务的脚本
[root@sandbox-host start_scripts]# ./start_sandbox-hdp.sh(时间会比较长)
服务器登录
127.0.0.1:8080 查看Ambari 界面 用8080 端口展示出来
账号:maria_dev
密码:maria_dev
[外链图片转存失败(img-Nn17RrpV-1567130585822)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1566867057812.png)]
2122登录虚拟机(外面),里面有一个2222端口
[外链图片转存失败(img-VLSyltzX-1567130585823)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1566887326010.png)]
[外链图片转存失败(img-OM3p4F9z-1567130585824)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1566909402636.png)]
[外链图片转存失败(img-Qr5GSD0S-1567130585824)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1566909463135.png)]
[外链图片转存失败(img-tRlWs9Lr-1567130585825)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1566909675015.png)]
设置dkssh 的密码:2222端口密码:bigdatahadoop
127.0.0.1:8080 查看Ambari 界面 用8080 端口展示出来
默认密码情况
用户名:admin
密码:admin
[外链图片转存失败(img-l4OGqOIW-1567130585827)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1566892654851.png)]