- 博客(10)
- 问答 (1)
- 收藏
- 关注
原创 使用Python的Requests和lxml库爬取美食菜谱并存储为CSV文件
使用Requests和lxml库来爬取美食菜谱网站上的菜谱信息,并将这些数据存储为CSV文件。
2023-11-02 20:47:38 394
原创 回归模型评价指标——衡量预测能力
在评估回归模型时,应根据问题的特点和预测需求选择合适的指标,以得出准确、全面的评估结论。只有综合考虑这些指标,我们才能更好地了解回归模型的预测能力,并做出准确的预测和决策。决定系数的值越接近1,表示模型对目标变量的解释能力越强。最大误差是预测值与真实值之间的最大差异,用于衡量模型在预测中的最大偏差。与MSE一样,RMSE的值越小,表示模型的拟合效果越好。较小的MAE值表示模型的预测能力较好。解释方差的值越接近1,表示模型对目标变量的解释能力越强。MSE的值越小,表示模型的预测能力越好。
2023-07-16 22:17:14 2954 1
原创 对鸢尾花数据集使用随机森林分类模型,输出评价指标
鸢尾花数据集是一个经典的分类问题,被广泛用于机器学习中的训练和测试,同时也是许多分类算法的实用案例(本例使用随机森林进行分类对7种评价指标进行输出展示)。
2023-05-16 16:48:32 4051 3
原创 在sklearn中的GridSearchCV和RandomizedSearchCV参数调优的实现和比较
网格参数调优适合于参数空间小、需要保证找到最优解的情况,而随机参数调优适合于参数空间大、时间复杂度高的情况。在实际实验中,可以先使用网格调优快速找到一组参数区间后,再通过随机调优精细调整参数。
2023-05-09 13:09:56 2560
原创 一个函数网格参数调优同时比较不同的分类算法
为了节省选择算法和参数的时间,快速地选择最优的分类算法和参数一个高效、灵活并且易于操作的模型评估函数。一个函数函数能够同时比较不同的分类算法(例子中使用朴素贝叶斯、支持向量机、随机森林、XGBoost和LightGBM),在利用GridSearchCV搜索最佳参数的同时对测试集的准确率进行评估,最终输出结果。4输出结果如下,在小样本下,运行不会很耗时,如果是大样本会非常耗时,可以感觉自己的需要控制参数和模型的多少,在选出合适的模型后再单独进行更多的调整和优化。该函数接收训练集和测试集的特征变量和目标变量。
2023-05-07 11:32:54 138
原创 使用PowerTransformer处理数据提高朴素贝叶斯-高斯分类器的准确率
PowerTransformer是一个sklearn中的预处理模块,可以对数据进行变换,使其更符合高斯分布或者更加均匀分布。主要用于处理数据集中存在偏态分布的情况,常用于数据预处理。
2023-05-03 17:32:40 1243
原创 R语言典型相关分析作业
假设两组变量,采用类似主成分分析的做法,在每一组变量中选择若干个有代表性的综合指标-变量的线性组合,通过研究两组的综合指标之间的关系来反映两组变量之间的相关关系,基本原理如下:首先在魅族变量中找出变量的线性组合,使其具有最大相关性,然后再每组变量中找出第二对线性组合,使其分别与第一对线性组合不相关,而第二对线性组合本身具有最大的相关性,如此继续下去,直到两组变量之间的相关性被提取完毕。下表是数据的描述性统计量,对数据进行观察,对后续的分析也许有用,看到数据的均值差异,更加确定了数据需要标准化。
2023-03-31 21:22:44 308
原创 异方差的拉格朗日乘数(LM)检验python
设线性模型为在异方差检验中,常用的检验方法有3种:Breusch--Pagan-Godfrey(BPG)检验,Glejser(戈里瑟)检验,Harvey(哈维)检验,检验公式分别如下。
2023-03-24 18:19:57 3766
Python安装numpy成功,但使用出现问题
2021-11-02
TA创建的收藏夹 TA关注的收藏夹
TA关注的人