小人物
码龄2年
关注
提问 私信
  • 博客:18,467
    18,467
    总访问量
  • 39
    原创
  • 794,312
    排名
  • 7
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江西省
  • 加入CSDN时间: 2023-04-25
博客简介:

2303_77841383的博客

查看详细资料
个人成就
  • 获得12次点赞
  • 内容获得13次评论
  • 获得27次收藏
  • 代码片获得130次分享
创作历程
  • 39篇
    2023年
成就勋章
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

数据预处理

对于许多数据预处理任务,我们希望知道关于数据的中心趋势和离中趋势特征,中心趋势度量包括均值(mean)、众数(mode)、中位数(median)和中列数(midrange),而离中心趋势度量包括四分位数(quartiles)、四分位数极差(interquariles range,IQR)和方差(variance)。
原创
发布博客 2023.10.07 ·
242 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

自动求梯度

Pytorch中是根据前向传播生成计算图的,如果最终生成的函数是标量,那么这是一般情况下的backward反向传播。如果y不是一个标量,MXNet将默认先对y中元素求和得到新的变量,再求该变量有关x的梯度。下面定义有关变量x的函数。我们需要调用record函数来要求MXNet记录与求梯度有关的计算。我们经常需要对函数求梯度(gredient),本文将介绍如何使用MXNet提供的autograd模块来对自动求梯度。为了求有关变量x的梯度,我们需要先调用attach_grad函数来申请存储梯度所需要的内存。
原创
发布博客 2023.10.01 ·
163 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

_模型评估

return r2#创建评分函数(评分器),并且定义分数越高代表模型越好#创建岭回归(Ridge Regression)对象使用scikit-learn的make_scorer函数,我们能很轻松地创建自定义指标函数。首先,定义一个函数,它接受两个参数——真实的目标向量和预测值,并返回一个分数。然后使用make_scorer创建一个评分器对象,并指定较高的分数代表模型性能较好或较差(使用greater_is_better参数)
原创
发布博客 2023.09.18 ·
185 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

使用特征选择进行降维

前文讨论了如何在尽可能不丢失特征原始信息的情况下,通过创建新特征矩阵的维度,这种方法被称为特征提取(feature extraction)。本文将学习另一种降维方法:特征选择(feature selection)特征选择会保留信息量较高的特征而丢失信息量较低的特征。特征选择的方法可分为三类:过滤器、包装器和嵌入式方法。过滤器方法根据特征的统计信息来选择最优特征。包装器方法通过不断试错,找出一个可以产生高质量预测值的的模型的特征子集。嵌入式方法则将选择最优特征子集作为机器学习算法训练过程的一部分。
原创
发布博客 2023.09.16 ·
294 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

利用特征提取进行特征降维

对于给定的一组特征,在保留信息量的同时减少特征的数量。主成分分析法是一种最流行的线性降维方法。它的目标是用方差(Variance)来衡量数据的差异性,并将差异性较大的高维数据投影到低维空间中进行表示。绝大多数情况下,我们希望获得两个主成分因子:分别是从数据差异性最大和次大的方向提取出来的,称为PC1(Principal Component 1) 和 PC2(Principal Component 2)。
原创
发布博客 2023.09.14 ·
224 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

处理日期和时间

使用pandas的to_datetime函数,并通过format参数指定字符串的日期和时间格式。
原创
发布博客 2023.09.13 ·
150 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

处理分类数据

简介本身没有内在顺序的类别称为nominal,如果一组分类天然拥有内在的顺序性就称之ordinal。
原创
发布博客 2023.09.11 ·
136 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

处理数值型数据

在机器学习中,缩放是一个很常见的预处理任务。后面很多算法都假设所有的特征是在同一取值范围中的,最常见的范围是[0,1]或[-1,1]。用于缩放的方法有很多,其中最简单的一种被称为min-max缩放。min-max缩放利用特征的最小值和最大值,将所有特征都缩放到同一个范围中。scikit-learn的MinMaxScaler支持两种方式来缩放特征。第一种方式是使用fit计算特征的最小值和最大值,然后使用transform来缩放。第二种方式是使用fit_transform一次性执行上面所说两个操作。
原创
发布博客 2023.09.10 ·
197 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

数据整理_

使用head可以查看数据集的前几行(默认查看前5行),使用tail可以查看最后几行;使用shape可以查看DataFrame中包含多少行多少列;使用describe可以查看任何数值型的列的基本描述统计量。
原创
发布博客 2023.09.09 ·
93 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

_加载数据_

在make_regression和make_classification中,n_informative确定了用于生成目标向量的特征的数量。如果n_informative的值比总的特征数(n_features)小,则生成的数据集将包含多余的特征,这些特征可以通过特征选择技术识别出来。另外,make_classification包含了一个weights参数,可以利用它来生成不均衡的仿真数据集。
原创
发布博客 2023.09.08 ·
83 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

吴恩达机器学习第二课

小结一下使用神经网络时的步骤:网络结构:第一件要做的事是选择网络结构,即决定选择多少层以及决定每层分别有多少个单元。第一层的单元数即我们训练集的特征数量。最后一层的单元数是我们训练集的结果的类的数量。如果隐藏层数大于1,确保每个隐藏层的单元个数相同,通常情况下隐藏层单元的个数越多越好。我们真正要决定的是隐藏层的层数和每个中间层的单元数。训练神经网络:参数的随机初始化利用正向传播方法计算所有的编写计算代价函数的代码利用反向传播方法计算所有偏导数利用数值检验方法检验这些偏导数。
原创
发布博客 2023.09.03 ·
72 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

数据分析二

当数据量较大时,将数据所有信息输出到控制台中会显得过于冗杂,可通过查看部分数据信息,简要了解数据的特性。(1)查看数据前5行和尾部倒数5行数据,列名和索引信息,数据行列形状(2)查看各列数据描述性统计信息,如最小值、最大值、均值、标准差等(3)查看数据是否有缺失及每列数据的类型csv.info()缺失值处理对Pandas做数据时不可避免会因为一些原因出现缺失值NaN(Not a number),比如两个DataFrame对象进行运算时对于无法匹配的位置就会出现缺失值。
原创
发布博客 2023.09.02 ·
121 阅读 ·
1 点赞 ·
2 评论 ·
0 收藏

数据分析一

NumPy 最重要的一个特点是其 N 维数组对象 ndarray,它是一系列同类型数据的集合,以 0 下标为开始进行集合中元素的索引。ndarray 内部由以下内容组成:一个指向数据(内存或内存映射文件中的一块数据)的指针。数据类型或 dtype,描述在数组中的固定大小值的格子。一个表示数组形状(shape)的元组,表示各维度大小的元组。一个跨度元组(stride),其中的整数指的是为了前进到当前维度下一个元素需要"跨过"的字节数。
原创
发布博客 2023.08.26 ·
65 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

吴恩达机器学习2022第一课

监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组成。比如预测房价和预测是否是恶性肿瘤回归这个词的意思是,我们在试着推测出这一系列连续值属性。分类指的是,我们试着推测出离散的输出值:0或1良性或恶性,而事实上在分类问题中,输出可能不止两个值。
原创
发布博客 2023.08.26 ·
112 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

其他数据库对象篇

视图是一种虚拟表,本身是不具有数据的,占用很少的内存空间,它是 SQL 中的一个重要概念。, 视图赖以建立的这些表称为。视图的创建和删除只影响视图本身,不影响对应的基表。但是当对视图中的数据进行增加、删除和修改操作时,数据表中的数据会相应地发生变化,反之亦然。向视图提供数据内容的语句为 SELECT 语句, 可以将视图理解为在数据库中,视图不会保存数据,数据真正保存在数据表中。当对视图中的数据进行增加、删除和修改操作时,数据表中的数据会相应地发生变化;反之亦然。
原创
发布博客 2023.08.20 ·
68 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SQL之DDL、DML、DCL使用篇

创建数据库方式2:判断数据库是否已经存在,不存在则创建数据库CREATE DATABASE IF NOT EXISTS 数据库名 CHARACTER SET 字符集;
原创
发布博客 2023.08.20 ·
206 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mysql之SELECT使用篇

等,SELECT是sql语言的基础,最为重要)等,
原创
发布博客 2023.08.13 ·
813 阅读 ·
2 点赞 ·
1 评论 ·
12 收藏

使用XPath下

这里我们通过@href即可获取节点的href属性。
原创
发布博客 2023.07.09 ·
378 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

使用XPath中

这里使用*代表匹配所有节点,也就是整个HTML文本中的所有节点都会被获取。返回形式是一个列表,每个元素是Element类型,其后跟了节点的名称。[0]代表去除其中第一个对象。
原创
发布博客 2023.07.09 ·
80 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

使用XPath上

这里列出了XPath的常用规则,示例如下:这就是一个XPath规则,它代表选择所有名称为title,同时属性lang的值为eng的节点。
原创
发布博客 2023.07.09 ·
77 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏
加载更多