机器学习与数据挖掘
丰。。
某top数据科学专业博士研究生,发表多篇论文,CCFA类2篇,sci2区一篇,目前担任sci2区文章审稿人,均为深度学习领域,第一作者,五次国际级获奖经历,国家级大创四项,多次省级校级获奖经历,负责多项科研项目。希望大佬们多多提携,小弟定投桃报李。
展开
-
机器学习和数据挖掘04-PowerTransformer与 MinMaxScaler
PowerTransformer 是用于对数据进行幂变换(也称为Box-Cox变换)的预处理工具。幂变换可以使数据更接近正态分布,这有助于某些机器学习算法的性能提升。它支持两种常用的幂变换:Yeo-Johnson变换和Box-Cox变换。MinMaxScaler 是用于将数据进行最小-最大缩放的预处理工具。它将数据缩放到指定的范围,通常是。这对于那些受到特征尺度影响的算法(如K近邻和支持向量机)非常有用。原创 2023-08-31 19:57:36 · 1026 阅读 · 0 评论 -
机器学习和数据挖掘03-模型性能评估指标
公式:Log-loss = - (y_true * log(y_pred) + (1 - y_true) * log(1 - y_pred))TP (True Positives):正确预测为正例的样本数。TN (True Negatives):正确预测为负例的样本数。公式:Accuracy = (TP + TN) / (TP + TN + FP + FN)概念:被模型正确分类为正例的样本数量与所有被模型分类为正例的样本数量的比例。是均方误差的平方根。概念:模型正确预测的样本数量与总样本数量的比例。原创 2023-08-31 19:53:54 · 1023 阅读 · 0 评论 -
机器学习和数据挖掘02-Gaussian Naive Bayes
高斯朴素贝叶斯中的“朴素”假设是,给定类别标签,特征之间是相互独立的。这意味着在给定类别的情况下,特征的似然性被建模为一个由均值和标准差确定的正态分布。贝叶斯定理是概率中的基本定理,描述了如何根据更多证据或信息更新假设的概率。在分类的上下文中,它用于计算给定特征集的类别的后验概率。对于具有特征值的新数据点,算法使用贝叶斯定理计算每个类别的后验概率。具有最高后验概率的类别被预测为数据点的最终类别标签。对于每个类别中的每个特征,你需要基于训练数据估计均值和标准差。原创 2023-08-31 19:42:02 · 993 阅读 · 0 评论 -
机器学习和数据挖掘01- lasso regularization
Lasso(Least Absolute Shrinkage and Selection Operator)通过在损失函数中添加正则项,促使模型的系数变得稀疏,即某些系数会被压缩到零,从而实现特征选择。在Lasso正则化中,我们引入了一个惩罚项,它是模型中所有系数的绝对值之和乘以一个参数α。使用Lasso正则化有助于防止模型过拟合,并且在具有大量特征的数据集中,可以自动选择对目标变量有更大影响的特征。这使得Lasso在特征选择和降维方面非常有用。其中,MSE是均方误差,α是惩罚项的强度,β是模型的系数。原创 2023-08-31 19:37:45 · 709 阅读 · 0 评论