大数据各种相关软件的下载

准备模板机

1.修改网络配置 => 静态ip

	vim /etc/sysconfig/network-scripts/ifcfg-ens33
	BOOTPROTO="static" 
	ONBOOT="yes"
	IPADDR=192.168.41.11(改成自己的ip)
	GATEWAY=192.168.41.2
	DNS1=192.168.41.2

2.修改虚拟机名字hostname

vim /etc/hostname
bigdata11

3.内网ip 与hostname 映射

vim /etc/hosts
192.168.41.11 bigdata11
192.168.41.12 bigdata12
192.168.41.13 bigdata13
192.168.41.14 bigdata14
192.168.41.15 bigdata15
192.168.41.16 bigdata16

4.卸载机器自带没用的东西
rpm -qa | grep java
然后把查询的结果一条一条删掉,rpm -e xxx --nodeps
最后再检查一遍rpm -qa | grep java,还有没有遗漏
5.关闭防火墙:打开所有端口

systemctl status firewalld
systemctl stop firewalld
systemctl disable firewalld

6.修改虚拟网络
编辑=》虚拟网络=》vm8=》
子网ip:192.168.41.0
子网掩码:255.255.255.0
nat设置:192.168.41.2(都不改)
7.ifconfig验证内网ip hostname验证虚拟机名字
最后用xshell远程登录检验

克隆

创建完整克隆
1.修改克隆机器的内网ip
vim /etc/sysconfig/network-scripts/ifcfg-ens33
2.hostname
vim /etc/hostname
3.重启机器

安装mysql

1.下载安装包(rz或者直接拽进去)
mysql-5.7.38-1.el7.x86_64.rpm-bundle.tar
mysql-5.7.38-el7-x86_64.tar.gz
2.解压
tar -xvf ./mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar
3.卸载 mariadb 相关的东西
rpm -qa | grep mariadb
rpm -e --nodeps mariadb-libs-5.5.56-2.el7.x86_64
rpm -qa | grep mariadb(检查是否删干净)
4.rpm -ivh mysql-community-common-5.7.28-1.el7.x86_64.rpm
rpm -ivh mysql-community-libs-5.7.28-1.el7.x86_64.rpm
rpm -ivh mysql-community-libs-compat-5.7.28-1.el7.x86_64.rpm
rpm -ivh mysql-community-client-5.7.28-1.el7.x86_64.rpm
rpm -ivh mysql-community-server-5.7.28-1.el7.x86_64.rpm
5.vim /etc/my.cnf
log-error=/var/log/mysqld.log
6.初始化mysql
mysqld --initialize --user=mysql
A temporary password is generated for root@localhost: xxx记住暂时密码
7.启动mysql
systemctl start mysqld
mysql 可以对外提供服务:port: 3306
8.登录mysql 使用
mysql -uroot -p密码有特殊字符的加
9.修改mysql 软件 root用户 密码
set password = password(‘123456’);
10.赋予权限
flush privileges;
卸载:
1.mysql 停掉
systemctl stop mysqld
2.mysql卸载
rpm -qa | grep mysql
rpm -qa | grep mysql | xargs -n1 rpm -e --nodeps
3.linux存储目录删掉
find / -name “mysql
注意:/sys/
4.重装

安装hadoop

伪分布式版

1.部署jdk
tar -zxvf ./jdk-8u45-linux-x64.gz -C ~/app/
ln -s ./jdk1.8.0_45/ java
vim ~/.bashrc
export JAVA_HOME=/home/hadoop/app/java
export PATH= J A V A H O M E / b i n : {JAVA_HOME}/bin: JAVAHOME/bin:PATH
source ~/.bashrc
java -version
2.部署hadoop
tar -zxvf ./hadoop-3.3.4.tar.gz -C ~/app/
ln -s ./hadoop-3.3.4/ hadoop
vim ~/.bashrc
#HADOOP_HOME
export HADOOP_HOME=/home/hadoop/app/hadoop
export PATH= H A D O O P H O M E / b i n : {HADOOP_HOME}/bin: HADOOPHOME/bin:{HADOOP_HOME}/sbin: P A T H v i m h a d o o p − e n v . s h e x p o r t J A V A H O M E = / h o m e / h a d o o p / a p p / j a v a h a d o o p v e r s i o n 3. h d f s 部署 v i m c o r e − s i t e . x m l < p r o p e r t y > < n a m e > f s . d e f a u l t F S < / n a m e > < v a l u e > h d f s : / / b i g d a t a 13 : 9000 < / v a l u e > ( 进行修改 ) < / p r o p e r t y > v i m h d f s − s i t e . x m l < p r o p e r t y > < n a m e > d f s . r e p l i c a t i o n < / n a m e > < v a l u e > 1 < / v a l u e > < / p r o p e r t y > 4. s s h 远程登录并执行的命令需要设置 h a d o o p 密码 p a s s w d h a d o o p s s h − k e y g e n − t r s a − P ′ ′ − f   / . s s h / i d r s a c a t   / . s s h / i d r s a . p u b > >   / . s s h / a u t h o r i z e d k e y s c h m o d 0600   / . s s h / a u t h o r i z e d k e y s 5. 格式化文件系统 h d f s n a m e n o d e − f o r m a t 6. 启动 h d f s s t a r t − d f s . s h 7. 检查 h d f s 进程 p s − e f ∣ g r e p h d f s j p s 8. 查看 n a m e n o d e w e b u i h t t p : / / b i g d a t a 13 : 9870 / h t t p : / / 192.168.41.13 : 9870 / 9. 操作案例 h a d o o p f s − m k d i r / d a t a v i m w c . d a t a h a d o o p f s − p u t . / w c . d a t a / d a t a h a d o o p j a r s h a r e / h a d o o p / m a p r e d u c e / h a d o o p − m a p r e d u c e − e x a m p l e s − 3.3.4. j a r w o r d c o u n t / d a t a / w c . d a t a / o u t h a d o o p f s − g e t / o u t . / s t o p − d f s . s h 10. 部署 y a r n v i m m a p r e d − s i t e . x m l < p r o p e r t y > < n a m e > m a p r e d u c e . f r a m e w o r k . n a m e < / n a m e > < v a l u e > y a r n < / v a l u e > < / p r o p e r t y > < p r o p e r t y > < n a m e > m a p r e d u c e . a p p l i c a t i o n . c l a s s p a t h < / n a m e > < v a l u e > PATH vim hadoop-env.sh export JAVA_HOME=/home/hadoop/app/java hadoop version 3.hdfs部署 vim core-site.xml <property> <name>fs.defaultFS</name> <value>hdfs://bigdata13:9000</value>(进行修改) </property> vim hdfs-site.xml <property> <name>dfs.replication</name> <value>1</value> </property> 4.ssh 远程登录并执行的命令 需要设置hadoop密码 passwd hadoop ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys 5.格式化文件系统 hdfs namenode -format 6.启动hdfs start-dfs.sh 7.检查 hdfs进程 ps -ef | grep hdfs jps 8.查看namenode web ui http://bigdata13:9870/ http://192.168.41.13:9870/ 9.操作案例 hadoop fs -mkdir /data vim wc.data hadoop fs -put ./wc.data /data hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /data/wc.data /out hadoop fs -get /out ./ stop-dfs.sh 10.部署yarn vim mapred-site.xml <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.application.classpath</name> <value> PATHvimhadoopenv.shexportJAVAHOME=/home/hadoop/app/javahadoopversion3.hdfs部署vimcoresite.xml<property><name>fs.defaultFS</name><value>hdfs://bigdata13:9000</value>(进行修改)</property>vimhdfssite.xml<property><name>dfs.replication</name><value>1</value></property>4.ssh远程登录并执行的命令需要设置hadoop密码passwdhadoopsshkeygentrsaP′′f /.ssh/idrsacat /.ssh/idrsa.pub>> /.ssh/authorizedkeyschmod0600 /.ssh/authorizedkeys5.格式化文件系统hdfsnamenodeformat6.启动hdfsstartdfs.sh7.检查hdfs进程psefgrephdfsjps8.查看namenodewebuihttp://bigdata13:9870/http://192.168.41.13:9870/9.操作案例hadoopfsmkdir/datavimwc.datahadoopfsput./wc.data/datahadoopjarshare/hadoop/mapreduce/hadoopmapreduceexamples3.3.4.jarwordcount/data/wc.data/outhadoopfsget/out./stopdfs.sh10.部署yarnvimmapredsite.xml<property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>mapreduce.application.classpath</name><value>HADOOP_MAPRED_HOME/share/hadoop/mapreduce/:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/

vim yarn-site.xml

yarn.nodemanager.aux-services
mapreduce_shuffle


yarn.nodemanager.env-whitelist
JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ,HADOOP_MAPRED_HOME

11.启动yarn
start-yarn.sh
12.打开RM web ui
http://bigdata13:8088/
http://192.168.41.13:8088/
13.修改目录 hdfs 存储目录
先停掉hdfs服务
vim core-site.xml

hadoop.tmp.dir
/home/hadoop/data/hadoop

cp -R /tmp/hadoop-hadoop /home/hadoop/data/hadoop
重启
删除时要删除 根目录下tmp下的hadoop-hadoop
rm -rf /tmp/hadoop-hadoop
启动hadoop: start-all.sh
关闭hadoop:stop-all.sh

安装hadoop分布式版

1.准备三台机器 4G 2cpu 40G
克隆机器 修改 1.ip vim /etc/sysconfig/network-scripts/ifcfg-ens33
2.hostname vim /etc/hostname
3.ip映射 vim /etc/hosts
并用xshell实现远程连接3台
2.ssh 免密登录【三台机器都要做】
mkdir app software data shell project log
ssh-keygen -t rsa 【三台机器都要做】
拷贝公钥 【三台机器都要做】
ssh-copy-id bigdata11
ssh-copy-id bigdata12
ssh-copy-id bigdata13
验证是否免密登录
ssh bigdata11
ssh bigdata12
ssh bigdata13
3.编写文件同步脚本
同步命令:
1.scp: scp [host1:]file1 … [host2:]file2
scp bigdata32:~/1.log bigdata33:~
2.rsync: rsync [OPTION]… SRC [SRC]… [USER@]HOST:DEST
rsync ~/1.log bigdata34:~
当bigdata32:~/1.log: 文件内容发生更新
rsync -av ~/1.log bigdata34:~
dirname ~/1.log /home/hadoop 获取文件目录的上一级
basename /home/hadoop/1.log 获取文件名字

#!/bin/bash
#三台机器 进行文件发放
if [ $# -lt 1 ];then
	echo "参数不足"
	echo "eg:$0 filename..."
fi
#遍历发送文件到 三台机器
for host in bigdata11 bigdata12 bigdata13
do
	echo "=============$host=================="
	#1.遍历发送文件的目录
	for file in $@
	do
	#2.判断文件是否存在
	if [ -e ${file} ];then
		pathdir=$(cd $(dirname ${file});pwd)
		filename=$(basename ${file})
		#3.同步文件
		ssh $host "mkdir -p $pathdir"
		rsync -av $pathdir/$filename $host:$pathdir
	else
		echo "${file} 不存在"
	fi
	done
done

给脚本配置环境变量:
vim ~/.bashrc
export SHELL_HOME=/home/hadoop/shell
export PATH= P A T H : {PATH}: PATH:{SHELL_HOME}
source ~/.bashrc
4.jdk 部署【三台机器都要安装】
bigdata11 先安装jdk rz
tar -zxvf jdk-8u45-linux-x64.gz -C ~/app/
ln -s jdk1.8.0_45/ java
vim ~/.bashrc
#JAVA_HOME
export JAVA_HOME=/home/hadoop/app/java
export PATH= P A T H : {PATH}: PATH:{JAVA_HOME}/bin
java -version
同步 jdk安装目录 到其他机器 12 13
xsync java/
xsync jdk1.8.0_45
xsync ~/.bashrc
三台机器 source ~/.bashrc
5.部署hadoop
tar -zxvf hadoop-3.3.4.tar.gz -C ~/app/
ln -s hadoop-3.3.4/ hadoop
vim ~/.bashrc
#HADOOP_HOME
export HADOOP_HOME=/home/hadoop/app/hadoop
export PATH= P A T H : {PATH}: PATH:{HADOOP_HOME}/bin: H A D O O P H O M E / s b i n s o u r c e   / . b a s h r c h a d o o p v e r s i o n 【三台机器一起做】 [ h a d o o p @ b i g d a t a 32 d a t a ] {HADOOP_HOME}/sbin source ~/.bashrc hadoop version 【三台机器一起做】 [hadoop@bigdata32 data] HADOOPHOME/sbinsource /.bashrchadoopversion【三台机器一起做】[hadoop@bigdata32data] mkdir hadoop
6. 配置hdfs
vim core-site.xml:

fs.defaultFS
hdfs://bigdata11:9000


hadoop.tmp.dir
/home/hadoop/data/hadoop

vim hdfs-site.xml:

dfs.replication
3

<property>
	<name>dfs.namenode.secondary.http-address</name>
	<value>bigdata13:9868</value>
</property>
<property>
	<name>dfs.namenode.secondary.https-address</name>
	<value>bigdata13:9869</value>
</property>

cd /home/hadoop/app/hadoop/etc/hadoop
vim workers
bigdata11
bigdata12
bigdata13
同步bigdata11内容 到bigdata12 bigdata13
xsync hadoop
xsync hadoop-3.3.4
xsync ~/.bashrc
三台机器都要做souce ~/.bashrc
7.
格式化:hdfs namenode -format 【格式化操作 部署时候做一次即可】namenode在哪 就在哪台机器格式化
启动hdfs: start-dfs.sh =>namenode在哪 就在哪启动
访问namenode web ui:
http://bigdata11:9870/
http://192.168.41.34:9870/
8. 配置yarn
vim mapred-site.xml:

mapreduce.framework.name
yarn


mapreduce.application.classpath
H A D O O P M A P R E D H O M E / s h a r e / h a d o o p / m a p r e d u c e / ∗ : HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*: HADOOPMAPREDHOME/share/hadoop/mapreduce/:HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*

vim yarn-site.xml:

yarn.nodemanager.aux-services
mapreduce_shuffle


yarn.nodemanager.env-whitelist
JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ,HADOOP_MAPRED_HOME


yarn.resourcemanager.hostname
bigdata12

bigdata11机器 配置文件同步到bigdata12、 13
xsync hadoop-3.3.4
9.
启动yarn: start-yarn.sh =>resourcemanager在哪 就在哪启动
访问RM web ui:
http://bigdata12:8088
http://192.168.41.35:8088
10.编写一个 群起脚本
vim shell/hadoop-cluster

#!/bin/bash
if [ $# -lt 1 ];then
	echo "Usage:$0 start|stop"
	exit
fi
case $1 in
 "start")
	echo "========启动hadoop集群========"
	echo "========启动 hdfs========"
	ssh bigdata11 "/home/hadoop/app/hadoop/sbin/start-dfs.sh"
	echo "========启动 yarn========"
	ssh bigdata12 "/home/hadoop/app/hadoop/sbin/start-yarn.sh"
 ;;
  "stop")
	echo "========停止hadoop集群========"
	echo "========停止 yarn========"
	ssh bigdata11 "/home/hadoop/app/hadoop/sbin/stop-yarn.sh"
	echo "========停止 hdfs========"
	ssh bigdata12 "/home/hadoop/app/hadoop/sbin/stop-dfs.sh"
 ;;
   *)
	echo "Usage:$0 start|stop"
 ;;
esac

11.编写查看进程的脚本
vim shell/jpsall

for host in bigdata11 bigdata12 bigdata13
do
	echo "==========$host========="
	ssh $host "/home/hadoop/app/java/bin/jps| grep -v Jps"
done

hive部署

1.解压
[hadoop@bigdata32 software]$ tar -zxvf ./apache-hive-3.1.2-bin.tar.gz -C ~/app/
[hadoop@bigdata32 app]$ ln -s ./apache-hive-3.1.2-bin hive
2.配置环境变量
[hadoop@bigdata32 bin]$ vim ~/.bashrc
#HIVE_HOME
export HIVE_HOME=/home/hadoop/app/hive
export PATH= P A T H : {PATH}: PATH:{HIVE_HOME}/bin
source ~/.bashrc
3.配置 hive 元数据库 【hive 整合MySQL】
在hive conf目录下
cp hive-default.xml.template hive-site.xml
vim hive-site.xml


javax.jdo.option.ConnectionURL
jdbc:mysql://bigdata12:3306/hive?createDatabaseIfNotExist=true

javax.jdo.option.ConnectionDriverName com.mysql.jdbc.Driver javax.jdo.option.ConnectionUserName root javax.jdo.option.ConnectionPassword 123456 2.把mysql驱动包 放置 hive lib下面 rz mysql-connector-java-5.1.28.jar 3.初始化元数据库 schematool -dbType mysql -initSchema 4. 在mysql下show databases;---hive show tables;--里面有74个表 Hive 默认是有一个数据库存在的 :default 启动hive hive回车 ## 部署sqoop 解压:[hadoop@bigdata12 software]$ tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C ~/app/ 做软连接:[hadoop@bigdata12 app]$ ln -s sqoop-1.4.7.bin__hadoop-2.6.0/ sqoop 配置环境变量: vim ~/.bashrc #SQOOP_HOME export SQOOP_HOME=/home/hadoop/app/sqoop export PATH=${SQOOP_HOME}/bin:$PATH source ~/.bashrc 配置sqoop env: [hadoop@bigdata12 conf]$ cp sqoop-env-template.sh sqoop-env.sh [hadoop@bigdata12 conf]$ vim sqoop-env.sh export HADOOP_COMMON_HOME=/home/hadoop/app/hadoop export HADOOP_MAPRED_HOME=/home/hadoop/app/hadoop export HIVE_HOME=/home/hadoop/app/hive 添加mysql driver: [hadoop@bigdata32 lib]$ ll mysql-* [hadoop@bigdata32 lib]$ cp mysql-connector-java-5.1.28.jar /home/hadoop/app/sqoop/lib(在hive下的lib里拷贝的mysql驱动拷贝到sqoop下的lib里) 添加一个common架包: [hadoop@bigdata12 lib]$ ll common* [hadoop@bigdata12 lib]$ rz(commons-lang-2.6.jar) ## 安装Superset 不要和mysql部署在一起!! ### 安装Python环境 1.[root@hadoop13 ~]#yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel 2.yum install epel-release 3.yum install mysql-devel 4.yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel cyrus-sasl-devel openldap-devel 5.cd /usr/local/src 6.[root@hadoop13 src]#tar -xvf Python-3.6.6.tgz 7. ./configure 8. make && make install 9. python按两下tab 10.pip3 install --upgrade pip -i http://pypi.douban.com/simple --trusted-host pypi.douban.com 11.pip3 install virtualenv -i http://pypi.douban.com/simple --trusted-host pypi.douban.com 12. pip3 install --upgrade setuptools -i http://pypi.douban.com/simple --trusted-host pypi.douban.com 13.python3 -m venv superset-py3 14.source superset-py3/bin/activate 15.vim requirement.txt 16.`alembic==1.3.2 # via flask-migrate amqp==2.5.2 # via kombu apispec[yaml]==1.3.3 # via flask-appbuilder attrs==19.3.0 # via jsonschema babel==2.8.0 # via flask-babel backoff==1.10.0 # via apache-superset (setup.py) billiard==3.6.3.0 # via celery bleach==3.1.0 # via apache-superset (setup.py) --- celery==4.4.1 # via apache-superset (setup.py) cffi==1.13.2 # via cryptography click==7.1.1 # via apache-superset (setup.py), flask, flask-appbuilder colorama==0.4.3 # via apache-superset (setup.py), flask-appbuilder contextlib2==0.6.0.post1 # via apache-superset (setup.py) croniter==0.3.31 # via apache-superset (setup.py) cryptography==2.8 # via apache-superset (setup.py) decorator==4.4.1 # via retry defusedxml==0.6.0 # via python3-openid flask-appbuilder==2.2.4 # via apache-superset (setup.py) flask-babel==1.0.0 # via flask-appbuilder flask-caching==1.8.0 # via apache-superset (setup.py) flask-compress==1.4.0 # via apache-superset (setup.py) flask-jwt-extended==3.24.1 # via flask-appbuilder flask-login==0.4.1 # via flask-appbuilder flask-migrate==2.5.2 # via apache-superset (setup.py) flask-openid==1.2.5 # via flask-appbuilder flask-sqlalchemy==2.4.1 # via flask-appbuilder, flask-migrate flask-talisman==0.7.0 # via apache-superset (setup.py) flask-wtf==0.14.2 # via apache-superset (setup.py), flask-appbuilder flask==1.1.1 # via apache-superset (setup.py), flask-appbuilder, flask-babel, flask-caching, flask-compress, flask-jwt-extended, flask-login, flask-migrate, flask-openid, flask-sqlalchemy, flask-wtf geographiclib==1.50 # via geopy geopy==1.20.0 # via apache-superset (setup.py) gunicorn==20.0.4 # via apache-superset (setup.py) humanize==0.5.1 # via apache-superset (setup.py) importlib-metadata==1.4.0 # via jsonschema, kombu isodate==0.6.0 # via apache-superset (setup.py) itsdangerous==1.1.0 # via flask jinja2==2.10.3 # via flask, flask-babel jsonschema==3.2.0 # via flask-appbuilder kombu==4.6.8 # via celery mako==1.1.1 # via alembic markdown==3.1.1 # via apache-superset (setup.py) markupsafe==1.1.1 # via jinja2, mako marshmallow-enum==1.5.1 # via flask-appbuilder marshmallow-sqlalchemy==0.21.0 # via flask-appbuilder marshmallow==2.19.5 # via flask-appbuilder, marshmallow-enum, marshmallow-sqlalchemy more-itertools==8.1.0 # via zipp msgpack==0.6.2 # via apache-superset (setup.py) numpy==1.18.1 # via pandas, pyarrow pandas==0.25.3 # via apache-superset (setup.py) parsedatetime==2.5 # via apache-superset (setup.py) pathlib2==2.3.5 # via apache-superset (setup.py) polyline==1.4.0 # via apache-superset (setup.py) prison==0.1.2 # via flask-appbuilder py==1.8.1 # via retry pyarrow==0.16.0 # via apache-superset (setup.py) pycparser==2.19 # via cffi pyjwt==1.7.1 # via flask-appbuilder, flask-jwt-extended python-dateutil==2.8.1 # via alembic, apache-superset (setup.py), croniter, flask-appbuilder, pandas python-dotenv==0.10.5 # via apache-superset (setup.py) python-editor==1.0.4 # via alembic python-geohash==0.8.5 # via apache-superset (setup.py) python3-openid==3.1.0 # via flask-openid pytz==2019.3 # via babel, celery, flask-babel, pandas pyyaml==5.3 # via apache-superset (setup.py), apispec retry==0.9.2 # via apache-superset (setup.py) selenium==3.141.0 # via apache-superset (setup.py) simplejson==3.17.0 # via apache-superset (setup.py) six==1.14.0 # via bleach, cryptography, flask-jwt-extended, flask-talisman, isodate, jsonschema, pathlib2, polyline, prison, pyarrow, pyrsistent, python-dateutil, sqlalchemy-utils, wtforms-json sqlalchemy-utils==0.36.1 # via apache-superset (setup.py), flask-appbuilder sqlalchemy==1.3.12 # via alembic, apache-superset (setup.py), flask-sqlalchemy, marshmallow-sqlalchemy, sqlalchemy-utils sqlparse==0.3.0 # via apache-superset (setup.py) urllib3==1.25.8 # via selenium vine==1.3.0 # via amqp, celery webencodings==0.5.1 # via bleach werkzeug==0.16.0 # via flask, flask-jwt-extended wtforms-json==0.3.3 # via apache-superset (setup.py) wtforms==2.2.1 # via flask-wtf, wtforms-json zipp==2.0.0 # via importlib-metadata` 17.pip3 install -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com -r requirement.txt ### 安装Superset 1.pip3 install apache-superset==0.37.1 -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com 2.pip3 install sqlalchemy==1.3.24 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com 3.pip3 install mysqlclient -i http://pypi.douban.com/simple --trusted-host pypi.douban.com 4.pip3 install "pymssql<3.0" -i http://pypi.douban.com/simple --trusted-host pypi.douban.com 5.mysql> CREATE DATABASE `superset` /*!40100 DEFAULT CHARACTER SET utf8 */; 6.vim superset-py3/lib/python3.6/site-packages/superset/config.py 7. :/SQLALCHEMY_DATABASE_URI 8. 把sqlite的注释掉,把mysql放出来,注意前面不要有空格!!并修改为'mysql://root:123456@hadoop12/superset?charset=utf8' 9. superset db upgrade 10.export FLASK_APP=superset 11.flask fab create-admin admin admin admin admin@123.com admin admin 12.superset init 13.在dbeaver里面点superset,点新建SQL编辑器,把库换成superset,alter table superset.table_columns modify type varchar(255); 把这行选中执行 cd /usr/local/src/ source superset-py3/bin/activate 14.superset run -h bigdata13 -p 8889 ### web 界面登录检查 http://bigdata13:8889/ 1.点击Sources=>Databases=>点击+号(Add a new record)=>填bigdata12和mysql://root:123456@bigdata12/bigdata(库)=>点击TEST CONNECTION测试能否连接成功=>往下滑点击SAVE保存 2.点击SQL Lab =>SQL Editor=>在左侧选择你要连接的机器和库,比如选择bigdata12(机器)和bigdata(库)=>在右侧写个sql测试一下,比如select * from bigdata.city_info; =>选中这行,点击RUN SELECTED QUERY=>只要能抛出结果说明Superset已经和数据源连接成功了,接下来就可以做可视化了 启动: 启动 [root@bigdata13 src]# cd /usr/local/src source superset-py3/bin/activate superset run -h bigdata13 -p 8889 ## 安装xxl linux: crontab 进行任务调度 用的少 xxl: 任务定时调度的分布式框架 多任务之间依赖关系 : DAG--有向无环图 文档地址:https://www.xuxueli.com/xxl-job/ 架构:分布式框架 主从架构 1.老大: 调度中心 2.小弟:执行器 1.将解压好的jar包,导入到idea里(时间很长),记得将settting改成自己电脑上的 2.在idea里点击doc=>db=>tables_xxl_job.sql,全部复制到dbeaver里,点击数据库,点击新建SQL编辑器,复制到里面,全部选中点击执行SQL脚本 3.点击xxl-job-admin=>src=>main=>resources=>application.properties 修改: ###web server.port=1234 ###xxl-job, datasource spring.datasource.url=jdbc:mysql://bigdata12:3306/xxl_job?Unicode=true&characterEncoding=UTF-8 spring.datasource.username=root spring.datasource.password=123456 在后侧xxx-job-admin=>Lifecycle=>package=>xxl-job-admin-2.1.2.jar 三台机器linux:创建日志文件夹 [root@bigdata12 ~]# mkdir -p /data/applogs/xxl-job [root@bigdata12 ~]# chown -R hadoop:hadoop /data [hadoop@bigdata12 xxl]里面导入jar包,执行java -jar xxl-job-admin-2.1.2.jar 打开调度中心webui:http://bigdata12:1234/xxl-job-admin 用户名:admin 密码:123456 4.点击xxx-job-executor-samples=>xxl-job-executor-sample-springboot=>src=>main=>resources=>application.properties 修改: ###xxl-job admin address list, such as "http://address" or "http://address01,http://address02" xxl.job.admin.addresses=http://bigdata12:1234/xxl-job-admin ###xxl-job executor address xxl.job.executor.appname=bigdata12 xxl.job.executor.ip=bigdata12 xxl.job.executor.port=9999 在右侧点击xxl-job-executor-sample-springboot=>Lifecycle=>package=>xxl-job-executor-sample-springboot-2.1.2.jar 新开一个会话,[hadoop@bigdata12 xxl]里面导入jar包,执行java -jar xxl-job-executor-sample-springboot-2.1.2.jar 5.在shell里面上传脚本并进行修改xxl.sh,修改机器名和端口号即可 可能遇到的问题: -bash: ./xxl.sh: /bin/bash^M: 坏的解释器: 没有那个文件或目录 [root@bigdata12 ~]# yum install -y dos2unix [hadoop@bigdata12 shell]$ dos2unix xxl.sh 使用xxl.sh start/stop/status来检查脚本是否可以正常使用 6.(1)在http://bigdata12:1234/xxl-job-admin页面,点击执行器管理=》新增执行器=》AppName:输入机器名bigdata12,名称:也输入bigdata12,排序:随便写,注册方式:手动=》等待一会刷新看OnLine 机器地址是否变绿 (2)在任务管理器=》选择bigdata12执行器=》执行器:bigdata12,运行模式:(GLUE(shell)),负责人和任务描述随便写,Cron里面选择定时器 在操作里选择GLUE IDE=>随便写点echo "111111",在操作里面,选择执行一次看看是否能执行成功,测试成功后点击启动,在调度日志里面可以看见执行成功的日志 ## flume下载 1.解压:[hadoop@bigdata12 software]$ tar -zxvf ./apache-flume-1.9.0-bin.tar.gz -C ~/app/ 做软连接:[hadoop@bigdata12 app]$ ln -s apache-flume-1.9.0-bin/ flume 2.配置环境变量: vim ~/.bashrc #FLUME_HOME export FLUME_HOME=/home/hadoop/app/flume export PATH=${FLUME_HOME}/bin:${PATH} source ~/.bashrc 3.[hadoop@bigdata12 conf]$ cp flume-env.sh.template flume-env.sh vim flume-env.sh export JAVA_HOME=/home/hadoop/app/java ## zookeeper下载 1.解压:[hadoop@bigdata12 software]$ tar -zxvf apache-zookeeper-3.8.0-bin.tar.gz -C ~/app/ 做个软连接:[hadoop@bigdata12 app]$ ln -s apache-zookeeper-3.8.0-bin/ zookeeper 2.配置环境变量 vim ~/.bashrc #ZK_HOME export ZK_HOME=/home/hadoop/app/zookeeper export PATH=${ZK_HOME}/bin:${PATH} source ~/.bashrc 3.[hadoop@bigdata12 data]$ mkidr zookeeper [hadoop@bigdata12 conf]$ cp zoo_sample.cfg zoo.cfg vim zoo.cfg #example sakes. dataDir=/home/hadoop/data/zookeeper 4.启动nohup zkServer.sh start &或者zkServer.sh start 5.启动zkCli.sh回车 ## 安装kafka 1.解压:tar -zxvf kafka_2.11-2.2.1.tgz -C ~/app/ 2.软连接:ln -s kafka_2.11-2.2.1.tgz kafka 3.配置环境变量: #KAFKA_HOME export KAFKA_HOME=/home/hadoop/app/kafka export PATH=${KAFKA_HOME}/bin:${PATH} 4.[hadoop@bigdata12 config]$ vim server.properties broker.id=0 log.dirs=/home/hadoop/data/kafka zookeeper.connect=bigdata12:2181/kafka 启动kafka: 1.zookeeper 得启动 :zkServer.sh start 2.启动kafka:kafka-server-start.sh -daemon $KAFKA_HOME/config/server.properties
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 3_level Ⅲ大数据分析师是指在大数据领域具备高级技能和经验的专业人员。百度下载是指通过百度平台下载相关的资源和文件。 3_level Ⅲ大数据分析师是对大数据分析领域有深入理解和掌握的专业人士。他们具备扎实的数理统计基础,熟悉数据挖掘、机器学习、人工智能等相关技术。他们能够根据业务需求,利用各种工具和方法来处理海量的数据,进行数据清洗、数据挖掘、模型建立和预测分析等工作。他们能够将复杂的数据转化为有价值的信息和洞察,并提供给决策者和业务部门进行战略决策和业务优化。 百度下载是指通过百度提供的下载平台来获取所需的资源和文件。在百度下载平台上,用户可以通过关键词搜索获取自己需要的文件、软件、音乐、视频等资源,并进行下载和安装。百度下载平台提供了丰富的资源种类,覆盖了众多领域,用户只需在搜索框中输入关键词,即可找到相关的资源并进行下载。百度下载平台也提供了用户评价和评论功能,可以帮助用户了解他人对资源的评价和意见,为用户提供参考。 因此,如果你是一名3_level Ⅲ大数据分析师,并且你需要下载相关的资源和文件,你可以通过百度下载平台来满足你的需求。在下载过程中,注意验证文件的来源和安全性,以保护自身和数据的安全。 ### 回答2: 3_level Ⅲ大数据分析师是指具有较高级别的大数据分析师,具备深入的专业知识和丰富的实际工作经验,能够在大数据分析项目中独立完成高级分析任务和解决复杂的数据挖掘问题。他们具有全面的数据分析能力和技巧,熟练运用各种大数据分析工具和算法,能够从大量的数据中提取有价值的信息,并将其转化为实际的商业洞察。大数据分析师可以帮助企业挖掘数据的潜在价值,为企业提供决策支持和业务优化的建议。 百度下载是指在百度搜索引擎平台上下载相关的资源和文件。作为大数据分析师,我们可以利用百度下载平台获得数据集、工具和技术文档等资源,用于进行数据分析和研究工作。在百度下载平台上,我们可以搜索并下载各种与大数据分析相关的资源,如数据集、分析工具、数据分析案例、研究报告等,这些资源可以帮助我们更好地进行数据分析工作。 作为3_level Ⅲ大数据分析师,在进行大数据分析工作时,百度下载平台可以帮助我们快速获取所需资源,提高工作效率和分析准确性。通过与百度下载平台的结合,我们可以拓宽数据来源,增加数据样本的多样性,提高数据分析的可信度和准确性。此外,百度下载平台上还有很多优秀的大数据分析工具和算法资源,可以帮助我们更好地开展数据分析工作,提高数据分析能力和水平。 总而言之,作为3_level Ⅲ大数据分析师,充分利用百度下载平台可以帮助我们快速获取所需资源和工具,提高数据分析的效率和准确性,更好地支持企业的决策和业务优化。 ### 回答3: 要下载3_levelⅢ大数据分析师相关的资源,可以通过百度进行搜索和下载。 首先,打开百度的主页(www.baidu.com),在搜索框中输入“3_levelⅢ大数据分析师下载”,然后点击搜索按钮。 百度会展示与搜索关键词相关的搜索结果,这些结果可能包括官方网站、论坛、博客等等。我们需要注意选择靠谱的来源,以确保下载的文件正常可用且没有潜在的安全问题。 可以尝试点击搜索结果中的官方网站链接,这些网站通常会提供最新版的下载资源,也会包含一些用户手册和教程。在官方网站中,可以按照要求提供的下载链接,下载需要的3_levelⅢ大数据分析师相关资源。 此外,还可以尝试点击搜索结果中的论坛和博客链接,这些链接通常会提供一些社区用户分享的资源。在论坛和博客中,可以查看其他用户的分享和评论,以了解资源的质量。如果找到了满意的资源,则可以通过论坛和博客提供的下载链接进行下载。 在下载资源之前,一定要注意保护个人电脑的安全,确保所下载的文件没有病毒和恶意程序。可以使用杀毒软件下载的文件进行扫描,或者选择一些知名度高的网站进行下载,降低风险。 总结来说,通过百度搜索引擎,我们可以找到并下载所需的3_levelⅢ大数据分析师相关资源。在下载之前,要选择靠谱的来源,确保文件的安全性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值