- 博客(168)
- 收藏
- 关注
原创 牛顿修正法在二阶近似方法中的应用
optimtool包所依据的理论支撑中,还没有为二阶微分方法的近似作邻近算子的近似与修正,所以二阶近似方法是为研究无不可微项的可微函数的算子。
2023-07-19 21:53:03
1069
原创 关于监督学习问题的样本扩充与平衡问题
在多分类样本集的训练学习中,通常会遇到各类别样本集不平衡的问题,它会导致模型训练过程的总类别样本集训练的病态。
2023-06-18 21:54:47
442
原创 基于中文在线文档的Polars工具介绍
Polars是一个能够提取(Extract)、转换(Transform)与加载(Load)大规模数据集的工具(快速多线程、单指令多数据流、延迟/即时执行、查询优化、混合流等)。根据官方开发人员的Benchmark结果,Polars版本号为0.8.8时,能够在143s左右导入维度在1,000,000,000*9左右,内存为50GB的数据集。与此同时,Pandas在1.2.2版本导入同样的数据集会出现out of memory的报错。
2023-05-21 21:52:03
1612
原创 基于小批量随机梯度下降法的通用分类器
The General Classifier Based on Mini-Batch Stochastic Gradient Descent.
2022-09-22 10:29:41
493
原创 面向有监督学习与文本数据的通用分类器
The General Classifier for Supervised Learning and Text Data.
2022-09-15 13:48:09
843
原创 面向优化科学研究领域的软件包
The fundamental package for scientific research in optimization field based on Numpy and Sympy.
2022-06-10 11:37:37
444
原创 一维数据的数字特征
文章目录第1章 抽样和抽样分布1. 样本与样本分布1.1 总体与样本1.2 总体分布与样本分布2. 总体的数字特征2.1 一维总体的数字特征数学期望方差分位数2.2 多维总体的数字特征协方差相关系数矩3. 样本的数字特征3.1 一维数据的数字特征表示位置的数字特征表示分散性的数字特征表示分布形状的数字特征表示分布形状的图形4. 统计量与抽样分布第1章 抽样和抽样分布1. 样本与样本分布1.1 总体与样本定义:将研究对象的全体(通常称为数量指标XXX可能取值的全体)称为总体,总体中的每个对象称为个体X
2021-11-11 22:37:46
2380
原创 用户留存预测挑战赛
文章目录用户留存预测挑战赛第一步:预览比赛数据集1. 导入数据2. 查看缺失值3. 查看待使用数据集大小第二步:提取数据集特征第三步:预处理特征数据集第四步:数据集降维第五步:训练模型第六步:评价模型的好坏第七步:处理结果文件用户留存预测挑战赛爱奇艺AI竞赛官网第一步:预览比赛数据集# 导包import pandas as pdimport numpy as np1. 导入数据app_launch_logs = pd.read_csv('app_launch_logs.csv')use
2021-11-09 14:39:55
5484
22
原创 数据集:银行客户信息
数据集:银行客户信息链接:https://pan.baidu.com/s/1JXqEMxgOrNlkVyBt1fQTWw提取码:2him# 导包import pandas as pdimport numpy as np# 导入数据train_data = pd.read_csv('modified_bank-additional-train.csv')test_data = pd.read_csv('modified_bank-additional-test.csv')# 显示数据维数
2021-11-09 14:02:02
4284
原创 kaggle比赛:房价预测(基于MXNet框架)
kaggle比赛:房价预测1. 获取和读取数据集%matplotlib inlinefrom mxnet import autograd, gluon, init, ndfrom mxnet.gluon import data as gdata, loss as gloss, nnimport numpy as npimport pandas as pdtrain_data = pd.read_csv('kaggle_house_pred_train.csv')test_data = pd
2021-11-05 21:49:19
336
原创 正向传播、反向传播和计算图
正向传播、反向传播和计算图1. 正向传播正向传播是指对神经网络沿着从输入层到输出层的顺序,依次计算并存储模型的中间变量(包括输出)。假设输入是一个特征为x∈Rdx \in R^dx∈Rd的样本,且不考虑偏差项,那么中间变量:z=W(1)x(1)z = W^{(1)}x \tag 1z=W(1)x(1)其中W(1)∈Rh×dW^{(1)} \in R^{h \times d}W(1)∈Rh×d是隐藏层的权重参数。把中间变量z∈Rhz \in R^hz∈Rh输入按元素运算的激活函数ϕ\phiϕ后,将
2021-11-05 21:44:18
729
原创 主成分分析与因子分析法
问题一# 导包import numpy as npimport pandas as pd# 传入矩阵参数R1 = np.array([[1, 0.577, 0.509, 0.387, 0.462], [0.577, 1, 0.599, 0.389, 0.322], [0.509, 0.599, 1, 0.436, 0.426], [0.387, 0.389, 0.436, 1, 0.523], [0.462, 0.322, 0.426, 0.523, 1]])# 求矩阵的参数与特征向量e
2021-11-03 00:25:48
1330
1
原创 丢弃法(基于MXNet)
丢弃法可以采用倒置丢弃法来应对过拟合问题。1. 方法⼀个单隐藏层的多层感知机。其中输⼊个数为4,隐藏单元个数为5,且隐藏单元hi(i=1,...,5)h_i(i = 1, . . . , 5)hi(i=1,...,5)的计算表达式为:hi=ϕ(x1w1i+x2w2i+x3w3i+x4w4i+bi)(1)h_i=\phi(x_1w_{1i}+x_2w_{2i}+x_3w_{3i}+x_4w_{4i}+b_i) \tag 1hi=ϕ(x1w1i+x2w2i+x3w3i+x4w4i
2021-10-31 13:23:44
432
原创 权重衰减(基于线性回归)
权重衰减虽然增⼤训练数据集可能会减轻过拟合,但是获取额外的训练数据往往代价高昂。应对过拟合问题的常用方法:权重衰减。1. 方法权重衰减等价于L2L_2L2范数正则化(regularization)。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小,是应对过拟合的常⽤⼿段。L2L_2L2范数正则化在模型原损失函数基础上添加L2L_2L2范数惩罚项,从而得到训练所需要最小化的函数。L2L_2L2范数惩罚项指的是模型权重参数每个元素的平⽅和与⼀个正的常数的乘积。不添加惩罚项的线性回归损失函
2021-10-30 23:11:58
1466
原创 模型选择、欠拟合和过拟合
模型选择、欠拟合和过拟合引入:当模型在训练数据集上更准确时,它在测试数据集上却不一定更准确。1. 训练误差和泛化误差机器学习模型应关注降低泛化误差要区分训练误差(training error)和泛化误差(generalization error)。通俗来讲,前者指模型在训练数据集上表现出的误差,后者指模型在任意⼀个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用损失函数。训练误差可以认为是做往年高考试题(训练题)时的错误率,泛化误差则可以
2021-10-30 23:08:13
1053
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人