一、准备
1.cd BigData/tools
2.ls 查看脚本文件有哪些
3、bash create-cluster.sh 之后 bash start-bd.sh 创建集群并启动大数据服务
若集群已成功创建,则只需通过bash start-cluster.sh
和bash start-bd.sh
启动集群和大数据服务。 若出现容器已存在而无法启动的问题,docker ps -a查看所有容器,然后使用docker rm master(等)删除容器。
4、vi create-cluster.sh 可以查看文件内容;可通过cat /etc/hosts
查看当前集群的配置
5、之后打开四个Tab并依次进入master/slave1/slave2等:docker exec -it (--privileged可省略) master (有空格) /bin/bash 等
6、jps 查看当前进程节点数
7、vi tmp 、vi tmp.txt 进入文件后退出:p!
8、ls 查看master下的目录,进入cd /root/之后再ls查看
9、cd quotes :进入这个爬虫文件里
10、爬虫scrapy常用指令:
scrapy startproject<project_name>[protect_dir]:创建新的爬虫项目
scrapy runspider <spider_file.py>:运行爬虫文件
scrapy fetch<URL>:获取指定的URL,显示获取过程
scrapy view <URL>:在浏览器中打开URL显示网址内容
scrapy crawl <spider>:运行爬虫项目
scrapy list :列出当前目录下的所有爬虫文件
11、scrapy crawl quotes
二、进入mysql;master>service mysql start
1、mysql -u root -p
2、show databases; /创建名为quotes的数据库:create database quotes;
3、use quotes;
4、show tables;
三、
1、在BigData文件下,scp start-cluster.sh root@<master的ip地址>:/tmp:复制到@后的地方
2、在maste:/tmp下 hadoop fs -ls /mr
hadoop fs -rm -r /mr/output
hadoop fs -cat /mr/input/*