1.1实验环境的安装与搭建
1.1.1 Anaconda的下载与安装
下载Anaconda前不需要卸载Python。
Anaconda是一个Python的发行版,它内置了许多工具,包括Python本身和150多个第三方库,用于大规模数据处理、预测分析以及科学计算。Anaconda提供了一个优化的环境,简化了包的管理和部署,因此,安装Anaconda并不需要卸载已经安装的Python。
Anaconda作为一个基于Python的数据处理和科学计算平台,与Python本身并不冲突,可以共存于同一系统中。此外,Anaconda的安装过程已经优化,避免了单独安装Python可能遇到的一些问题,因此,用户可以选择保留原有的Python安装,或者直接使用Anaconda提供的环境进行工作。
然而,如果用户的系统中已经安装了多个Python版本,并且这些版本之间存在冲突,可能会导致安装Anaconda后出现问题。在这种情况下,处理方法是卸载掉以前安装的Python版本,以避免潜在的版本冲突。但这种情况并不常见,且主要发生在已经安装了多个Python版本的系统中。对于大多数用户来说,Anaconda提供了一个完整且优化的环境,无需卸载原有的Python即可使用。
这是官网地址:Anaconda | The Operating System for AI
这是下载地址:Download Now | Anaconda
如果访问不了,可以选择镜像网站下载:清华镜像网站
以下流程是从官网下载的。
官网下载流程
根据自己的操作系统选择下载。
我是windows,以下均为windows下载的流程。
下载好安装包后打开
点击 Next
点击 I Agree
这里选择第一个就可以。第二个选择是为这台电脑所有用户下载Anaconda,需要管理员权限。
选择自己的安装路径。
如果出现这种情况,你需要选择一个空文件夹来安装Anaconda。
下一步这里如图勾选即可,也可以根据你自己的需求选择:
第一个:创建快捷键;
第二个:添加Anaconda3到你的PATH环境路径中;
第三个:注册Anaconda3作为你的默认Python 3.12推荐。 允许其他IDE自动检测Anaconda3作为系统上的主Python 3.12。
第四个:完成后清除包缓存。
等待安装完成即可。
下载完成后点击Next
这里是云编程,有兴趣的可以点击蓝色链接访问Anaconda官网进行注册。
点击Next
这里如果你是第一次安装,都勾选即可,然后点击Finish,之后会打开Anaconda并且访问官网。
这是更新窗口,不想更新就选1or2,想更新就选3。然后会出现一个云编程登录的窗口,不想了解关闭即可。
至此安装完毕。
清华大学镜像网站下载流程
清华大学镜像站点:Anaconda下载
根据自己的操作系统选择更新的最新版本下载即可,流程同上。
1.1.2 检验
可能出现的问题
按照上述流程之后,win+R,输入cmd打开命令行窗口,输入
conda --version
出现这种情况是因为刚刚没有把Anaconda的安装目录添加到系统的PATH
变量中。
解决办法:
点击此电脑,打开属性,点击高级系统设置,打开环境变量
找到系统变量中的Path。
把你的Anaconda的安装目录复制过来,是Scripts这个目录
添加完成后,一路确定就行。
ok了,现在来检验
搞定。
1.1.3 启动
启动之后呢咱们要先创建一个新的环境
点击Create(左下角)。R不用勾选,R是R语言环境。
命名不要学我。如果安装了pytorch一般以pytorch命名。
等待创建完成后,咱们打开PyCharm,创建Conda环境和虚拟环境
打开设置,找到Project:projectName ->打开Python Interpreter(python解释器)
->点击右上角添加编辑器
红框的是虚拟环境文件夹
虚拟环境一般在创建项目时会自己生成,如果没有,那就新建一个。
然后打开Conda环境,大概是这样的,需要我们添加Conda可执行文件
打开边框右边的文件夹,找到你下载目录下的conda.bat文件
添加之后等待加载即可。
这里的使用现有环境,可以使用默认的,或者下滑选项,有你刚刚创建的环境可以使用。
在PyCharm的右下角可以切换解释器,我们切换刚刚添加的Anaconda解释器简单运行
hello world程序
1.2数据清洗和预处理
1.2.1 三大方法
1.删除法
删除法是最简单缺失值和异常值的处理方法,根据数据处理的角度不同可分为删除观测样本、删除变量两种。这属于以减少样本量来换取信息完整性的方法,适用于缺失值所占比例较小的情况;删除变量适用于变量有较大缺失且对研究目标影响不大的情况,意味着要删除整个变量或特征。
缺点:删除法虽然简单易行,但会存在信息浪费的问题,且数据结构会发生变动,以致最后得到有偏差的统计结果。
2.替换法
变量按属性划分可分为数值型和非数值型,二者的处理办法不同:如果缺失值和异常值所在变量为数值型,一般用该变量在其他所有对象中取值的均值来替换变量的缺失值和异常值;如果为非数值型变量,则使用该变量的其他全部有效观测值的中位数或者众数进行替换。
缺点:同删除法。
3.插补法
面对缺失值和异常值问题时,常用的插补法有回归插补、多重插补等。回归插补法利用回归模型,将需要插值补缺的变量作为因变量,其他相关变量作为自变量,通过回归函数预测出因变量的值来对缺失值和异常值进行补缺;多重插补法的原理是,从一个包含缺失值的数据集中生成一组完整的数据,如此进行多次,从而产生缺失值的一个随机样本。
1.2.2 算法步骤
1.数据清洗和预处理的过程
数据的读取 --》数据的探索与描述 --》 数据的简单处理 --》重复值的处理 --》 缺失值的处理
--》异常值的处理 --》文本字符串的处理 --》 时间数据的处理
2.算法步骤
同上。