机器学习
文章平均质量分 73
mathlxj
复旦大学数院博士毕业,蚂蚁打工人,神经网络方向,目前涉猎计算机视觉、机器学习、推荐系统、TensorRT、自动驾驶、联邦学习、消费信贷、量化等领域。
展开
-
AUC与GAUC的相关知识
GAUC (group auc)实际上是计算每个用户的auc,然后加权平均,最后得到group auc,这样能减少不同用户间的排序结果不好比较这一影响。具体公式为GAUC∑upωup∑upωup×AUCup这里,权重ωup可以是每个用户view或者click的次数,而且会正样本或负样本的情况。原创 2024-04-17 22:49:41 · 1069 阅读 · 0 评论 -
神经网络正则化之BN/LN/GN的原理
加速训练。之前训练慢是因为在训练过程中,整体分布逐渐往非线性函数的取值区间的上下限端靠近(参考sigmoid函数,大的正值或负值),链式求导导致低层的神经网络梯度消失。BN就是将越来越偏的分布强行拉回(标准)正态分布,使得激活值落在非线性函数对输入比较敏感的区域,这样输入小的变化就会导致损失函数较大变化,让梯度变大,避免梯度消失问题。γ和β?如果强行归一化为标准正态分布,则之前该层学习到的分布也丢失信息。引入这两个重构参数,来使得我们的网络中可以学习出原始网络要学习的特征分布.yVarx。原创 2023-07-18 17:01:21 · 904 阅读 · 0 评论 -
机器学习之生成式模型与判别式模型的区别
根本区别在于是否计算了联合分布PXY和是否比较了模型输出的概率大小.原创 2023-07-18 16:43:03 · 2326 阅读 · 0 评论 -
机器学习/深度学习常见算法实现(秋招版)
包括BN层、卷积层、池化层、交叉熵、随机梯度下降法、非极大抑制、k均值聚类等秋招常见的代码实现。原创 2023-07-18 16:29:32 · 2321 阅读 · 0 评论 -
如何防止softmax函数overflow和underflow?
在很多数值计算的库中,都采用了此类方法保持数值稳定.原创 2023-04-03 21:37:49 · 889 阅读 · 1 评论 -
逻辑回归相关问题整理
但是对特征本身来说的话,假设只有一个特征,在不考虑采样的情况下,你现在将它重复100遍。训练以后完以后,数据还是这么多,但是这个特征本身重复了100遍,实质上将原来的特征分成了100份,每一个特征都是原来特征权重值的百分之一。如果在随机采样的情况下,其实训练收敛完以后,还是可以认为这100个特征和原来那一个特征扮演的效果一样,只是可能中间很多特征的值正负相消了。一般和平方损失函数(最小二乘法)拿来比较,因为线性回归用的就是平方损失函数,原因就是平方损失函数加上sigmoid的函数将会是一个。原创 2023-04-03 21:30:42 · 357 阅读 · 0 评论 -
推荐系统之AUC指标的一些理解
以下是在一些整理的和自己的关于AUC的理解。原创 2023-04-03 21:05:37 · 1397 阅读 · 0 评论 -
imbalanced-learn API 传送门
imbalanced-learn APIAPI详情可见User guide或者见我的其余四篇关于imblearn的博客,即我翻译的doc原创 2019-04-29 16:34:08 · 783 阅读 · 2 评论 -
python imblearn toolbox 解决数据不平衡问题(四)——联合采样、集成采样、其它细节
一、Combination of over- and under-sampling主要是解决SMOTE算法中生成噪声样本,解决方法为cleaning the space resulting from over-sampling。主要思路是先使用SMOTE进行上采样,再通过Tomek’s link或者edited nearest-neighbours方法去获得一个cleaner space.对...翻译 2019-04-29 16:29:49 · 5723 阅读 · 3 评论 -
python imblearn toolbox 解决数据不平衡问题(三)——under-sampling下采样
下采样即对多数类样本(正例)进行处理,使其样本数目降低。在imblearn toolbox中主要有两种方式:Prototype generation(原型生成) 和Prototype selection (原型选择) 。前者生成不同于原正例样本的新的正例样本,后者对原正例样本进行筛选。一、Prototype generation算法即对多数类样本生成新的样本去替代原样本,使得样本数目减少,且...翻译 2019-04-28 20:34:58 · 6992 阅读 · 0 评论 -
python imblearn toolbox 解决数据不平衡问题(一)——imblearn简介
我们在处理医疗诊断等问题,会遇到不平衡数据,即病人的数据量相对于正常人的数据量要小的多。而大多数机器学习算法需要较为平衡的数据。如果不对不平衡数据处理,往往会导致模型向majority class方向偏移。在Python中,有个很好用的库imbalanced-learn——imblearn.在本博文,只借鉴论文进行关键点总结。参考先放参考,后文是我在阅读参考资料时整理的笔记,因此难免疏漏.论...翻译 2019-04-27 17:10:41 · 3262 阅读 · 2 评论 -
天池赛学习笔记——使用sklearn+机器学习进行分类/回归任务之(二)数据集划分、预处理和特征工程
上一篇博文介绍了读取csv文件和可视化数据的过程,完成这两步后,我们对数据集和问题有了直观的理解,而天池、kaggle等竞赛会给我们需要提交结果的数据集和有标签的数据集。接下来,我们需要对数据集进行划分,以用于模型训练和验证.数据集的划分将有标签的数据集划分为训练集和测试集,以验证我们最终提交模型的泛化能力.from sklearn.model_selection import trai...原创 2019-03-31 21:38:09 · 1595 阅读 · 0 评论 -
天池赛学习笔记——使用sklearn+机器学习进行分类/回归任务之(一)数据读取和分析
一、数据读取在数据处理时,最常见的文件格式是.csv和.txt我们主要使用pandas的read_csv来读取数据。read_csv的文档网址为:http://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-read-csv-tableread_csv(filepath_or_buffer, sep=',', delimi...原创 2019-03-31 20:55:53 · 1097 阅读 · 0 评论 -
经典的机器学习二分类算法——Logistic回归
问题描述对于维度为m+1m+1m+1特征为xxx样本的二分类问题,有负类(Negative Class)记为000,正类(Positive Class)记为111,即对于类别yyy,有 y∈{0,1}.y∈{0,1}. y\in\{0,1\}. 我们期望找到一个hypothesis functionhθ(x)hθ(x)h_\theta(x),使得 0⩽hθ(x)⩽1.0⩽hθ(x)⩽1...原创 2018-08-07 23:04:36 · 37888 阅读 · 0 评论