项目1环境使用说明

本文详细介绍了如何创建和启动大数据集群,包括bash脚本的使用、容器管理、JPS进程检查以及Scrapy爬虫的常用命令。此外,还涉及了MySQL数据库的操作,如创建数据库和浏览表。最后提到了Hadoop文件系统(HDFS)的相关操作,如列出、删除和查看文件。
摘要由CSDN通过智能技术生成

一、准备

1.cd BigData/tools

2.ls 查看脚本文件有哪些

3、bash create-cluster.sh  之后  bash start-bd.sh  创建集群并启动大数据服务

若集群已成功创建,则只需通过bash start-cluster.shbash start-bd.sh启动集群和大数据服务。  若出现容器已存在而无法启动的问题,docker ps -a查看所有容器,然后使用docker rm master(等)删除容器。

4、vi create-cluster.sh 可以查看文件内容;可通过cat /etc/hosts查看当前集群的配置

5、之后打开四个Tab并依次进入master/slave1/slave2等:docker exec -it (--privileged可省略) master (有空格)          /bin/bash 等

6、jps 查看当前进程节点数

7、vi tmp  、vi tmp.txt 进入文件后退出:p!

8、ls 查看master下的目录,进入cd /root/之后再ls查看

9、cd quotes :进入这个爬虫文件里

10、爬虫scrapy常用指令:

             scrapy startproject<project_name>[protect_dir]:创建新的爬虫项目

             scrapy runspider <spider_file.py>:运行爬虫文件

             scrapy fetch<URL>:获取指定的URL,显示获取过程

             scrapy view <URL>:在浏览器中打开URL显示网址内容

             scrapy crawl <spider>:运行爬虫项目

             scrapy list :列出当前目录下的所有爬虫文件

11、scrapy crawl quotes

二、进入mysql;master>service mysql start

1、mysql -u root -p

2、show databases;    /创建名为quotes的数据库:create database quotes;

3、use quotes;

 4、show tables;

三、

1、在BigData文件下,scp start-cluster.sh root@<master的ip地址>:/tmp:复制到@后的地方

2、在maste:/tmp下  hadoop fs -ls /mr

hadoop fs -rm -r /mr/output

hadoop fs -cat /mr/input/*

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值