![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 67
01_6
人工智能...
Python..持续更新中...
有需要的宝子们快快关注...
展开
-
使用含有四层隐层的神经网络识别手写数字(完整代码详解)
本代码将使用含有四层隐层的神经网络识别手写数字,第1层256个神经元,第2层512个神经元,第3层128个神经元,第4层256个神经元。原创 2024-07-21 20:28:24 · 221 阅读 · 0 评论 -
【机器学习,填充数据后使用4种模型进行数据的处理】
下面三种方法的代码是一样的,只是需要改变读取到的数据对象,以及最后保存的JSON文件的内容。原创 2024-07-18 19:29:19 · 125 阅读 · 0 评论 -
详解AdaBoost算法
1)基学习器(base_estimator):AdaBoost算法中使用的弱学习器,常用的有决策树桩(Decision Tree Stumps)。2)迭代次数(n_estimators):弱学习器的数量,即算法迭代的次数。3)学习率(learning_rate):在每次迭代中,弱学习器权重的缩放因子。4)算法类型(algorithm):AdaBoost有两种实现,SAMME和SAMME.R。SAMME.R需要弱学习器支持概率预测。原创 2024-07-18 15:11:02 · 236 阅读 · 0 评论 -
【Excel 数据填充 之 使用平均值填充的方法】
【代码】【Excel 数据填充 之 使用平均值填充的方法】原创 2024-07-16 09:20:29 · 600 阅读 · 0 评论 -
【PCA的原理】
它通过对一个样本矩阵进行特征变换,找出一组新的特征来重新表示数据,同时减少特征的数目,新特征的数目远小于原特征的数目。通过PCA,可以将n维原始特征映射到k维(k原创 2024-07-16 07:28:51 · 442 阅读 · 0 评论 -
众数填充数据缺失值
本代码将实现使用众数填充数据中的缺失值。原创 2024-07-15 18:08:12 · 330 阅读 · 0 评论 -
使用PCA降维和下采样处理失衡数据,并使用随机森林进行训练
本代码将实现使用PCA降维减少数据的维度,并使用下采样处理失衡数据;然后使用随机森林进行模型训练,最后使用混淆矩阵和AUC-ROC曲线评价模型效果。原创 2024-07-14 20:35:58 · 377 阅读 · 0 评论 -
【词向量转换的原理及实现】
词向量转换(也称为词嵌入)的原理主要基于分布式表示(Distributed Representation)的思想,在自然语言处理(NLP)中,每个词被表示为一个实数向量,而不再是传统的离散符号。这种表示方法能够捕捉到词之间的语义相似性,因为具有相似上下文的词在语义上往往具有相似的含义。通过以上步骤,可以实现词向量转换,并将其应用于各种NLP任务中。原创 2024-07-09 17:14:41 · 843 阅读 · 1 评论 -
使用训练好的模型判断差评
前篇已经提供了训练模型的方法,本篇代码将实现保存模型并使用模型进行预测。原创 2024-07-07 21:02:00 · 200 阅读 · 0 评论 -
【K-means聚类是如何实现的?】
轮廓系数:。class sklearn.cluster.KMeans(n_clusters=8,init=’k-means++’,n_init=10,max_iter=300,tol=0.0001,precompute_distances=’auto’,verbose=0,random_state=None,copy_x=True,n_jobs=None,algorithm=’auto’)[source]: 类中心的个数,就是要聚成几类。【默认是8个】:参初始化的方法,默认为’k-me原创 2024-07-05 21:55:49 · 958 阅读 · 0 评论 -
通过SVM算法使失衡数据达到最佳性能
本代码所使用的数据集中,标签为1的数据仅有五千多条,而标签为0的数据有二十八万条。为了使数据集中我们最关注的标签1的预测成功的概率,即1的召回率尽量更高,本代码将采用SVM算法提高性能。由于SVM算法处理大数据集时速度过慢,并且样本数据不均衡,本代码还将采用下采样处理数据,并绘制AUC-ROC曲线评价性能。原创 2024-07-04 19:49:32 · 314 阅读 · 0 评论 -
【决策树回归的原理】
CART假设决策树是二叉树,内部节点特征的取值只有“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支。综上所述,回归树是一种有效的回归预测方法,通过递归地划分特征空间并计算每个子区域的预测值来构建模型。在实际应用中,回归树具有广泛的适用性和良好的预测性能。其基本原理是将特征空间划分为多个子区域,每个子区域输出一个预测值,通常是该区域内所有训练样本标签的均值。回归树(Regression Tree)是一种使用树模型来解决回归问题的算法。解决回归问题的决策树模型即为回归树。原创 2024-07-02 14:27:14 · 1166 阅读 · 0 评论 -
使用逻辑回归预测还款拖欠情况
本代码将实现对名为data.xls的数据集进行逻辑回归预测,列名分别为年龄 教育水平 当前工作年限 当前居住年限 家庭收入 债务占收入比例 信用卡负债 其他负债 还款拖欠情况,以还款拖欠情况为标签,并在训练前对数据进行标准化。原创 2024-06-28 20:30:14 · 302 阅读 · 0 评论 -
正则化:防止模型过拟合的利器
在机器学习和深度学习的实践中,我们常常会遇到一个困扰——过拟合(Overfitting)。过拟合指的是模型在训练集上表现很好,但在测试集或新数据上表现不佳,这通常是因为模型过于复杂,学习到了训练数据中的噪声。为了解决这个问题,我们可以使用一种非常有效的技术——正则化什么是正则化?正则化是一种防止机器学习模型过拟合的方法。它通过在模型的损失函数中加入额外的惩罚项,限制模型的复杂度,使得模型在训练数据上的表现更好,同时在未见过的数据上的泛化能力也更强。原创 2024-06-27 20:23:15 · 308 阅读 · 0 评论 -
Python中逻辑回归阈值调整策略详解
逻辑回归是一种广泛用于二分类问题的机器学习算法,它通过将线性回归的输出映射到0到1之间的概率值,并根据设定的阈值来进行分类预测。原创 2024-06-27 20:04:44 · 534 阅读 · 0 评论 -
Python中的简单与多元线性回归实现
线性回归是数据分析中常用的一种方法,用于探索两个或多个变量之间的线性关系。本文将通过两个示例,介绍如何在Python中实现简单线性回归和多元线性回归模型,并展示如何使用统计方法和机器学习库来进行分析。原创 2024-06-27 04:14:23 · 691 阅读 · 0 评论 -
逻辑回归的代码实现
加载了所需的库和模块用pandas库读取Excel文件中的鸢尾花训练数据和测试数据在数据集中选择了特征和目标变量。这里,特征包括四个花瓣和萼片的尺寸,而目标变量是花的类型(通常被编码为数字)初始化逻辑回归模型并使用训练数据进行拟合用训练好的模型对训练集和测试集进行了预测。用方法获取测试集上每个样本属于各个类别的概率使用来评估模型在测试集上的性能。这个函数会输出每个类别的精确度、召回率、F1分数和支持数。原创 2024-06-27 02:07:07 · 155 阅读 · 0 评论 -
numpy.loadtxt()参数详解
unpack选择是否将数据进行向量输出接下来以下表格为例展示每个参数的运用过程 ,将表格保存为1.csv。原创 2024-06-27 01:53:51 · 385 阅读 · 0 评论 -
开源项目之利用逻辑回归预测泰坦尼克号上乘客的生存情况
在kaggle上这是一个有意思的比赛,有很多人将他的分类结果保存并上传感兴趣你也试一下吧。原创 2024-06-25 22:32:36 · 540 阅读 · 0 评论 -
交叉验证的原理及实现
交叉验证(Cross-Validation)是一种用于评估机器学习模型性能的统计方法,特别是在模型选择和数据集相对较小的情况下。它通过将原始数据集分成多个部分(如K折),并在这些部分上多次训练和测试模型,以估计模型的泛化能力。原创 2024-06-28 02:27:29 · 436 阅读 · 0 评论 -
metrics.classification_report函数
weight avg:带权重平均,表示类别样本占总样本的比重与对应指标的乘积的累加和,同样以recall为例。precision(精度) = 正确预测的个数(TP)/被预测正确的个数(TP+FP)accuracy:准确率,即正确预测样本量与总样本量的比值,9/10=0.9。macro avg:宏平均,表示所有类别对应指标的平均值,以recall为例。recall(召回率) = 正确预测的个数(TP)/预测个数(TP+FN)f1-score = 2*精度*召回率/(精度+召回率)参数名与对应用途如下。原创 2024-06-28 09:23:11 · 373 阅读 · 0 评论 -
【详细介绍系列之混淆矩阵、精确率、召回率、F1分数】
精确率(Precision)是指模型预测为正例的样本中,实际为正例的比例。它衡量了模型预测为正例的可靠性。预测值为1的时候,有多少个被预测对了?(或者说预测值为0的时候,有多少个被预测对了?精确率是混淆矩阵中的一个重要指标,用于评估模型在预测为正例的样本中,实际为正例的比例。通过精确率,我们可以了解模型预测为正例的可靠性,从而判断模型的性能。然而,在评估模型性能时,还需要综合考虑其他指标,以获得更全面的评估结果。原创 2024-06-27 22:06:49 · 1293 阅读 · 0 评论 -
使用train_test_split划分数据集
是sklearn库中的一个函数,用于将数据集分割为训练集和测试集。原创 2024-06-27 21:41:21 · 583 阅读 · 0 评论 -
statsmodels库实现多元线性回归
本代码将使用statsmodels库实现二元线性回归的拟合与预测,并使用调整R方,T检验和F检验评价拟合与预测的效果。原创 2024-06-25 21:09:04 · 704 阅读 · 0 评论