《数据采集与预处理环境》实验环境安装

1.安装Python及第三方库

Python安装略,注意安装时选择add Python3.x to PATH。
安装第三方库时,因为使用默认源比较慢,改用清华镜像,
打开cmd,输入以下命令将默认源改为清华镜像下载:

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple/

第三方库安装,可以直接复制,然后在cmd下安装:

pip install PyMySQL
pip install urllib3
pip install requests
pip install bs4
pip install lxml
pip install scrapy
pip install kafka-python
pip install numpy
pip install pandas
pip install matplotlib
pip install xlrd
pip install openpyxl

安装好后,可以使用pip list检查是否已安装。

2.jupyter notebook安装

在cmd中输入

pip install jupyter notebook

安装好后,修改默认工作目录:
在cmd中输入:jupyter notebook --generate-config
会出现提示,在这里插入图片描述

根据提示找到对应文件,查找notebook_dir,将#c.NotebookApp.notebook_dir
改为
c.NotebookApp.notebook_dir = ‘D:\ftp\pypro’
注意
1.D:\ftp\pypro为默认文件路径,根据自己设置路径修改,注意设置路径时是两个\,如果1个可能会出错。路径可以包含汉字。
2.注意去掉#,并且c要顶格写。
3.如果此文件夹不存在,jupyter notebook会闪退。

3.jdk安装

注意安装时路径不要带空格,带空格容易出错。
添加环境变量:
1.选中用户变量Path,编辑,新建值为jdk的bin目录,如C:\soft\Java\jdk1.8.0_281\bin
2.新建系统变量JAVA_HOME,设置为jdk安装路径,如C:\soft\Java\jdk1.8.0_281。
3.在cmd中输入java -version测试是否安装成功,成功会提示版本信息。

4.MySQL安装

可以选择社区版的msi,双击安装即可,注意添加的密码,其他默认即可,安装完毕,重新打开,可以添加application,选择MySQL workbench,继续安装。
如果选择的是zip,解压缩后还需要对其进行配置和初始化。

1.在根目录下创建文件my.ini

其配置内容参考如下:

[mysqld]
skip-log-bin
# 设置3306端口
port=3306
# 设置mysql的安装目录
basedir=D:\mysql-8.0.22-winx64
# 设置mysql数据库的数据的存放目录
datadir=D:\mysql-8.0.22-winx64\Data
# 允许最大连接数
max_connections=200
# 允许连接失败的次数。
max_connect_errors=10
# 服务端使用的字符集默认为utf8mb4
character-set-server=utf8mb4
# 创建新表时将使用的默认存储引擎
default-storage-engine=INNODB
# 默认使用“mysql_native_password”插件认证
#mysql_native_password
default_authentication_plugin=mysql_native_password
[mysql]
# 设置mysql客户端默认字符集
default-character-set=utf8mb4
[client]
# 设置mysql客户端连接服务端时默认使用的端口
port=3306
default-character-set=utf8mb4

说明:
1.skip-log-bin这一句是为了创建自定义函数加的,如果不需要自定义函数,可以去掉。
2.basedir和datadir中的D:\mysql-8.0.22-winx64是我的文件安装目录,大家根据自己的目录修改。
有的文章说datadir值中的Data应该小写,我的大写,也不影响使用。

2.初始化

在cmd下,进入mysql的bin目录下,输入mysqld --initialize --console
–initialize表示初始化数据库, --console表示将初始化的过程在控制台显示。
初始化会创建Data文件,之前如果有Data会出错,不要提前创建,如果有,建议删除或改名。
初始化过程中会产生随机密码,注意要记下。后面登录会用到。

3.安装服务

在cmd下,继续输入mysqld -install MySQL,MySQL为自定义的MySQL服务的名称。如果提示服务已经存在“The service already exists”,则需要卸载,在cmd中输入 mysqld -remove MySQL。

4.启动服务

在cmd中输入net start MySQL以启动服务。也可以在服务中启动。

5.登录

在cmd中输入mysql -h 主机名 -u 用户名 -p 密码登录。
如果登录本机,可以省略掉-h 主机名.
登录后,需要修改密码,输入alter user ‘root’@‘localhost’ IDENTIFIED BY ‘123456’
修改本机的root账户的密码为123456.

6.配置环境变量

1.选中用户变量Path,编辑,新建值为mysql的bin目录,如D:\mysql-8.0.22-winx64\bin
2.新建系统变量MySQL_HOME,设置为mysql安装路径,如D:\mysql-8.0.22-winx64。

5.hadoop安装

hadoop解压缩时遇到一个问题,文件路径长度超过260字符,有些文件无法创建。
1.win+R,输入regedit打开注册表,在计算机\HKEY_LOCAL_MACHINE\SYSTEM\ControlSet001\Control\FileSystem下,找到 LongPathsEnabled 设置为 1。
2.win+R,输入pdedit.msc,找到并打开文件(本地组策略编辑器)C:\Windows\System32\gpedit.msc,依次点开 计算机配置>管理模板>系统>文件系统,找到“启用win32长路径”并双击打开,选择“启用”选项,然后单击“确定”,然后重启计算机。如果解压缩不报错可以不重启。

1.文件解压缩,删除bin文件,解压缩apache-hadoop-3.1.3-winutils-master.zip文件,将bin文件复制到hadoop根目录中。

2.在根目录下,新建tmp文件夹,在tmp下新建两个文件,文件名分别Wiedatanode和那么node。

3.环境变量配置

新建系统变量HADOOP_HOME,设置位hadoop根目录,如C:\soft\hadoop-3.1.3。
选中用户变量path,编辑,新建值%HADOOP_HOME%\bin

4.修改配置文件

打开C:\soft\hadoop-3.1.3\etc\hadoop文件,修改core-site.xml文件,内容为:

<configuration>
     <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:9000</value>
    </property>
 </configuration>

修改hdfs-site.xml为:

<configuration>
     <property>
         <name>dfs.replication</name>
         <value>1</value>
     </property>
     <property> 
      <name>dfs.permissions</name> 
      <value>false</value> 
     </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/C:/soft/hadoop-3.1.3/tmp/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/C:/soft/hadoop-3.1.3/tmp/datanode</value>
    </property>
</configuration>

/C:/soft/hadoop-3.1.3/根据自己路径修改
修改hadoop-env.cmd中的set JAVA_HOME后的值,改为
set JAVA_HOME=C:\soft\Java\jdk1.8.0_281

5.初始化

在cmd下输入:cd C:\soft\hadoop-3.1.3\bin切换到bin目录
输入:hdfs namenode -format
初始化一次即可,如果后续启动hadoop失败,可以删除namenode和datanode两个文件夹的内容,再重新初始化。

6.启动hadoop

在cmd中输入cd C:\soft\hadoop-3.1.3\sbin,
切换目录后,输入:start-dfs.cmd,弹出两个窗口,不要关闭。如果两个窗口的程序终止,出现提示符说明有问题,可以考虑重新初始化。如果没有自己停止运行,说明运行成功。

6.kafka、flume、kettle

自动解压缩即可。如果出错,可能Java设置有问题。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值