![](https://img-blog.csdnimg.cn/0351a5df1e1c47feb66316477a93d876.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
零基础入门Python数据分析与机器学习
文章平均质量分 65
零基础入门Python数据分析与机器学习
王国平
Python、Tableau、Power BI、SPSS、可视化数据挖掘、数据挖掘、数据可视化、数据分析
展开
-
Python 3.11安装过程
2022年5月7日,Python官方网站发布了Python 3.11.0b1版本,下载软件后(python-3.11.0b1-amd64.exe),可以正常安装:然后在Python的离线安装包的下载地址下载3.11版本的安装库即可:Python Extension Packages for Windows - Christoph Gohlke (uci.edu)例如:numpy库的下载截图:安装后可以查看Python 3.11中安装好且可以使用的库如下:...原创 2022-05-12 08:42:08 · 6222 阅读 · 0 评论 -
模型的调优方法--随机搜索及案例
我们在搜索超参数的时候,如果超参数个数较少,例如三四个或者更少,那么就可以采用网格搜索,一种穷尽式的搜索方法。但是当超参数个数比较多的时候,如果仍然采用网格搜索,那么搜索所需时间将会呈现指数上升。所以就提出了随机搜索的方法,随机在超参数空间中搜索几十甚至几百个点,其中就有可能有比较小的值。随机搜索使用方法与网格搜索很相似,但他不是尝试所有可能的组合,而是通过选择每一个超参数的一个随机值的特定数量的随机组合,这样可以方便的通过设定搜索次数,控制超参数搜索的计算量等。对于有连续变量的参数时,随机搜索会将..原创 2021-10-10 07:25:44 · 767 阅读 · 0 评论 -
模型的调优方法--交叉验证及案例
交叉验证也称为循环估计,是一种统计学上将数据样本切割成较小子集的实用方法,主要应用于数据建模。交叉验证基本思想:将原始数据进行分组,一部分作为训练集,另一部分作为验证集,首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型,以此作为评价分类器的性能指标,用交叉验证的目的是为了得到可靠稳定的模型。交叉验证的常见方法如下:Holdout验证将原始数据随机分为两组,一组作为训练集,一组作为验证集,利用训练集训练分类器,然后利用验证集验证模型,记录最后的分类准确率,以此作为分类器...原创 2021-10-10 07:24:28 · 1296 阅读 · 0 评论 -
模型的调优方法--交叉验证及案例
交叉验证也称为循环估计,是一种统计学上将数据样本切割成较小子集的实用方法,主要应用于数据建模。交叉验证基本思想:将原始数据进行分组,一部分作为训练集,另一部分作为验证集,首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型,以此作为评价分类器的性能指标,用交叉验证的目的是为了得到可靠稳定的模型。交叉验证的常见方法如下:Holdout验证将原始数据随机分为两组,一组作为训练集,一组作为验证集,利用训练集训练分类器,然后利用验证集验证模型,记录最后的分类准确率,以此作为分类器...原创 2021-10-10 07:23:21 · 774 阅读 · 0 评论 -
零基础入门Python数据分析与机器学习--Lasso回归及案例
在介绍Lasso回归之前,我们首先介绍一下过拟合的概念,过拟合指的是模型在训练集上表现的很好,但是在交叉验证集合测试集上表现一般,也就是说模型对未知样本的预测表现一般,即模型泛化能力较差。例如,我们在预测企业商品的销售利润时,如果仅考虑商品销售价格,模型不能很好地拟合数据,处于欠拟合状态。如果再考虑商品的销售数量和成本,模型可以达到最佳的效果。但是,如果我们继续添加其它变量,例如地区、季节、气候等,这时模型就可能处于过拟合状态。过拟合的问题通常发生在变量过多或采用了很复杂的模型的时候,这种情况下训练..原创 2021-10-10 07:19:45 · 824 阅读 · 0 评论 -
零基础入门Python数据分析与机器学习--Sklearn自带数据集
Sklearn内置了一些机器学习的数据集,其中包括鸢尾花数据集、乳腺癌数据集、波士顿房价数据集、糖尿病数据集、手写数字数据集和酒质量数据集等。7.4.1鸢尾花数据集简介“鸢尾花”数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作示例。数据集内包含3类共150条记录,每类各50个数据。首先需要导入“鸢尾花”数据集,然后查看数据集的属性,输入如下:from sklearn import datasetsiris = datasets.load_iris()print...原创 2021-10-10 07:17:58 · 805 阅读 · 0 评论 -
零基础入门Python数据分析与机器学习--缺失值的检测
对于数值数据,Pandas使用浮点值NaN(Not a Number)表示缺失数据。在介绍Pandas缺失值的处理之前,首先创建一个不同地区商品退单量的数据集,代码如下:import numpy as npimport pandas as pdreturn = {'春季': [90,87,None,None,90,90],'夏季': [91,89,None,91,88,82],'秋季': [89,None,None,82,85,95],'冬季': [96,83,None,85,99...原创 2021-10-10 07:16:31 · 178 阅读 · 0 评论 -
零基础入门Python数据分析与机器学习--重复值的处理
下面我们删除数据集中数值相同的记录,代码和输出如下所示。return.drop_duplicates()春季 夏季 秋季 冬季东北 90 91 89 96华东 87 89 85 83华中 90 91 82 85华南 92 88 85 99西南 90 82 95 80默认会判断全部列,也可以指定某一列或几列,例如,我们需要删除数据记录中某列的数值相同的记录,代码和输出如下所示。ret...原创 2021-10-10 07:15:06 · 374 阅读 · 1 评论 -
零基础入门Python数据分析与机器学习--椭圆模型拟合及案例
9.5.2椭圆模型拟合及案例多元数据集存在偏离正常范围的“离群点”。一般在预处理数据环节,需检测出离群点,再进行处理。离群点产生的原因可能是由数据中存在某些点来自于与总体分布不同的其它分布。具体而言,假设多元数据集大多数样本服从分布F,少量样本服从分布G;则将少量样本定义为离群点。一般采用马氏距离来检验某个样本是否为离群点。在计算距离过程中需要提供均值估计量和协方差估计量,这两个参数容易被离群值影响而发生偏离,导致马氏距离计算不准确,最终影响离散点的判断。实现离群点检测的一种常见...原创 2021-10-05 06:33:58 · 1113 阅读 · 0 评论 -
零基础入门Python数据分析与机器学习
前 言人工智能是目前炙手可热的一个领域,多数互联网公司纷纷表示人工智能将是下一个时代的革命性技术。机器学习属于人工智能的一个重要分支,他更偏向于理论,其目的是研究一种为了让计算机不断从大量数据中学习知识,自动实现知识发现和预测,使结果不断接近目标。实际工作中我们比较常见的是数据分析的概念,他是用适当的统计分析方法对收集来的大量数据进行分析,以求最大化地开发利用数据,从而发挥其商业价值。目前,数据分析已经是一种比较成熟的技术,而机器学习还处于快速发展的过程中,主要依靠算法和数据进行驱动。在数据原创 2021-10-05 06:22:37 · 415 阅读 · 0 评论