MI_farmer-CSDN博客

原创实验3 Hadoop集群运行环境搭建和使用

本节实验旨在引导学生通过实际操作搭建一个基本的Hadoop集群，并进行基本的使用验证。实验包括在集群节点上添加域名映射以实现节点间的相互识别，配置免密SSH登录以便无密码访问各节点，安装和配置JDK以满足Hadoop的运行需求。此外，本实验还涉及创建命令和文件同步脚本来维持集群的一致性，安装和配置Hadoop分布式文件系统（HDFS），以及对主节点的格式化和整个Hadoop集群的启动。最后，学生将通过查看进程和验证HDFS环境来检查集群的运行状况。

2024-09-19 14:06:45 1987 1

原创实验2 Linux文件系统常用操作实践

本节实验通过实战Linux文件操作模块的基本操作，需要先掌握linux文件系统的原理以及理解linux文件操作的原理，最后通过实操完成linux文件操作的命令，其中包括改变目录、创建目录及文件、删除文件、复制文件、文件移动和改名、查找文件、查找文件内容、管道、重定向等等。在进行Linux学习前，首先要了解该系统的目录结构和功能，方便后续理解和操作。登录系统后，在当前命令窗口下输入命令ls，可以看到当前目录下的文件及文件夹。利用ls / 命令可以查看根目录下的文件及文件夹，具体功能会在后续文中进行说明。

2024-09-19 13:31:53 1627

原创实验1 Vmware下的Linux系统安装和使用

Hadoop集群构建需要多台服务器，在个人学习和开发中购买服务器成本较大。因此，可是使用虚拟化软件在同一台计算机上构建多个Linux虚拟机环境，比较流行的虚拟化软件有virtualbox和VMware等。本实验采用的虚拟化软件是VMware的Workstation版本。Linux操作系统采用的是CentOS 7.0。本节实验主要是使用VMware虚拟化软件构建名为master、slave1、slave2的三台虚拟机，并在虚拟机上安装Linux操作系统。

2024-09-19 13:20:39 1212

原创将博客搬至CSDN

请在这里通知我搬家进度，谢谢。

2024-02-04 19:40:42 243

原创 Linux NLTK 安装下载nltk_data

已经成功安装anaconda环境和nltk。

2024-01-11 13:51:48 1510 1

原创利用Python将dataframe格式的所有列的数据类型转换为分类数据类型

【代码】利用Python将dataframe格式的所有列的数据类型转换为分类数据类型。

2023-09-17 16:50:29 1666

原创 win10电脑右下角不显示电脑图标，但是能正常上网，怎么解决？

win10系统更新后，电脑右下角不显示小电脑图标，但是能正常上网，而且用命令测试时显示的是192打头的网址。（如果提示因为操作权限问题执行失败，以管理员身份云运行cmd即可），重启电脑即可完成网络重置。

2023-08-14 09:22:59 1285

原创常用数据处理方式

fig = px.scatter(df, x=“真实订单量”, y=“真实金额”,hover_data=[‘did’,‘日期’])------------------更新pip命令-----------------------------------------------------打开指定端口--------------------------------------------------搭建虚拟环境-----------------------------右上角，new，即可选择需要的虚拟环境。

2023-08-01 18:24:02 1141

原创 pip升级报错：raise ValueError(msg)ValueError: Unable to find resource t64.exe in package解决办法

利用如下命令重新升级-

2023-07-17 10:52:47 759 1

原创利用Anaconda安装NLTK

下载完成后，在Python环境下利用如下命令进行测试，如果出现text1至text9即表明nltk安装成功。打开Anaconda Prompt，在打开的交互窗口中输入Python，在Python环境下依次输入。在弹出的窗口中点击download等待下载完成即可。在输入上述命令回车后，会弹出如下窗口。

2023-07-17 10:34:42 2800

原创 ImportError: cannot import name ‘IterativeImputer‘ from ‘sklearn.impute‘ 解决思路

ImportError: cannot import name 'IterativeImputer' from 'sklearn.impute' (C:\ProgramData\Anaconda3\lib\site-packages\sklearn\impute\__init__.py)，根据提示告诉在文件_init_.py中无法从klearn.impute导入名为IterativeImputer的包。我们可以根据提示在C:\ProgramData\Anaconda3\lib\site-packages\

2023-01-03 17:32:03 1664

转载 sklearn库主要模块功能和辅助函数

sklearn，全称scikit-learn，是python中的机器学习库，建立在numpy、scipy、matplotlib等数据科学包的基础之上，涵盖了机器学习中的样例数据、数据预处理、模型验证、特征选择、分类、回归、聚类、降维等几乎所有环节，功能十分强大，目前sklearn版本是0.23。与深度学习库存在pytorch、TensorFlow等多种框架可选不同，sklearn是python中传统机器学习的首选库，不存在其他竞争者。

2022-12-18 10:39:11 1096

原创 centos中创建普通用户、赋予普通用户权限

修改完毕，现在可以用tommy帐号登录，然后用命令 sudo su - ，即可获得root权限进行操作。使用passwd修改密码后，会有提示让你重复输入两次密码，切记不要输错！adduser 用户名 #创建一个新用户。passwd 用户名 #修改用户密码。

2022-12-10 15:35:00 2988

原创 jupyter读取CSV文件报错‘utf-8‘ codec can‘t decode byte 0xb8 in position 27382: invalid start byte解决办法

jupyter读取CSV文件报错'utf-8' codec can't decode byte 0xb8 in position 27382: invalid start byte，意思“utf-8”编解码器无法解码位置27382中的字节0xb8：起始字节无效。这是python在读取文件时非常容易遇到的一个编码问题。在读取文件时添加 encoding=‘ISO-8859-1’，即可解决上述问题。有关utf-8编码和ISO-8859-1编码描述可参考iso-8859-1和utf-8有什么不同_s

2022-12-05 13:09:01 2797

原创较全的idea2020.3配置Scala

不同版本的idea需要配置不同版本的Scala，笔者总结了idea如何配置Scala的方法，不管是哪个版本的idea都可以参考这种方法进行配置（笔者用的是汉化版的idea，英文版的可以参照执行），具体步骤如下：一、查看idea兼容的Scala插件版本；二、下载Scala SDK；三、手动安装Scala；四、测试Scala环境是否配置成功。

2022-11-09 11:04:30 5478

原创 YumRepo Error: All mirror URLs are not using ftp, http[s] or file解决办法

CentOS6.5利用yum命令安装程序报错YumRepo Error: All mirror URLs are not using ftp, http[s] or file.Eg. Invalid release/repo/arch combination/removing mirrorlist with no valid mirrors: /var/cache/yum/x86_64/6/base/mirrorlist.txtError: Cannot find a valid baseurl f

2022-10-16 16:21:54 9163 6

原创 zookeeper出现java.net.NoRouteToHostException: 没有到主机的路由问题解决

用zkServer.sh status 查看状态时，显示的是Error contacting service. It is probably not running。查看logs目录下的日志文件zookeeper-root-server-master.out文件，发现里面有报错java.net.NoRouteToHostException: 没有到主机的路由问题。

2022-10-11 15:46:28 5297

原创 Hadoop集群启动后利用Web界面管理HDFS

Hadoop集群启动后，可以通过自带的浏览器Web界面查看HDFS集群的状态信息，访问IP为NameNode所在服务器的IP地址，在浏览器地址栏中输入192.168.107.131：50070即可打开HDFS的web界面。例如我的NameNode所在服务器的IP地址为192.168.107.131。下面测试版本为Hadoop3.0以后的。

2022-10-10 10:17:21 24703 3

原创如何查找Hadoop的官网配置说明文档

1、打开浏览器搜索进入Hadoop官方界面。2、然后往下滑动，在左侧可以看到Release archive 这个选项，点击跳转到另外一个页面。3、然后根据自己的配置情况，找到相应的版本点击进去即可。以Hadoop 3.2.1版本为例，找到3.2.1版本后点击进入后跳转到另外一个界面，再点击documentation。4、再新界面往下拉到最后，看到左侧有一个configuration即是我们找到的Hadoop3.2.1版本的配置文档。

2022-10-09 11:42:55 1372

原创百度网盘如何免费提速？

1.登录百度网盘进入首页面。2.在首页面的右上有的一个设置按钮，点击这个设置按钮打开一个新界面。3.进入设置之后选择左侧的的传输设置选项。4.在传输设置的地方我们先把上传和下载的速度设置为不限速。5.设置完成之后下面会看见一个利用宽带闲时为下载提速，点击进去开启--->选择开启优化速率即可。

2022-10-09 11:18:05 3985 2

原创关于如何免费下载专利、英文文献等？

首先打开国家知识产权局官网，在页面的右下角有一个专利发布公告，点击跳转到另外一页面http://epub.cnipa.gov.cn/，在这个页面就可以随便下载啦，超级给力。。。。真是走了那么多年的老坑啦~~~终于跳出来了，哈哈哈哈

2022-10-09 10:40:44 2340

原创 ERROR: Could not install packages due to an OSError: [WinError 5] 拒绝访问解决办法分享

在Anaconda Prompt中利用pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pycaret[full]安装pycaret时出现ERROR:CouldnotinstallpackagesduetoanOSError:[WinError5]拒绝访问错误，根据提示再代码中加入--user解决成功。...

2022-07-12 20:36:15 11405 2

原创如何在window下快速安装XGBoost和LightGBM

小编安装这两个包是在已经安装了anaconda和scikit-learn等环境的基础上安装的哦，代码很简单，附在下方：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ xgboostpip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ lightgbm...

2022-07-12 17:01:56 878

原创 Windows下pip和conda安装包的用法区别以及如何快速安装包

有时候用pip insatll命令安装包时会出现下载缓慢甚至下载失败的情况，此问题可以通过添加镜像源来解决。pip install安装包的用法：pip install 包名、pip install "包名==版本名"、pip insatll "包名>所需要的最低版本，包名......

2022-07-08 15:36:23 2330 2

原创数据挖掘工具weka之weka包的安装

本文重点介绍weka包的安装，Weka 3.7.2 引入了对包的支持，使得扩展 Weka 变得容易，而无需重新编译或修补底层 Weka 安装。weka包有两种，一种称为offical，一种称为unofficial，官方包可以在weka菜单栏中选择Tools->Package manager中进行安装，非官方包可以在其他专门的网站进行下载安装，本文将详细介绍两种包的安装方式。.........

2022-07-06 11:04:31 4979 2

原创 Win10下在Anaconda新建的环境中安装sklearn

在开始种选择Anaconda Prompt启动，创建新环境ml->启动ml->安装Python->安装内核->把新环境添加到内核中。 sklearn为scikit-learn的简写，用到sklearn的同时，一般也会用到pandas包，可以用如下conda install+包名的方式安装scikit-learn、pandas等包，然后可以用conda list查看已安装好的包。............

2022-06-28 16:38:51 13910

原创 Windows环境下如何打开cmd进入到指定目录

Windows环境下如何打开cmd进入到指定目录，可以有两种方式：一种是直接在指定的目录地址栏中输入cmd敲回车即可；第二种可以里面“Windows+r”键打开运行对话框，在框中输入cmd敲回车，然后再输入相应的命令。...

2022-06-27 16:35:20 23574 5

原创 Windows下利用Anaconda Prompt从指定目录启动jupyter notebook

Windows下利用Anaconda Prompt从指定目录下启动jupyter notebook其实也可以很简单，第一步进到指定目录下，第二步在指定目录下输入jupyter notebook。

2022-06-27 16:19:52 3335

原创 ERROR: pip‘s dependency resolver does not currently take into account all the packages 解决办法分享

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts的解决办法分享

2022-06-20 11:01:40 66835 6