- 博客(4)
- 收藏
- 关注
原创 提升python执行效率的若干方法
大家好,我是小寒。一提到 python,大家的第一印象就是 python 语法简单,有丰富的库,它在机器学习和大数据中广泛使用。同样,python 速度慢 也给大家留下了深刻印象。不过,我们可以使用一些技巧来克服这个问题。在本文中,我将分享一些 Python 技巧,使用这些技巧可以让我们的 Python 代码运行得比平时更快。一、正确的算法和数据结构「选择正确的数据结构,对代码的效率提升是显而易见的。」python 中内置了 「list、tuple、set、dictionary」 等多种数据结
2022-11-02 17:08:04 884
原创 在 Python 中使用网格搜索和随机搜索进行超参数调整
大家好,我是小寒。原文链接我们都知道在训练机器学习模型时,都需要人工指定一组超参数。例如,逻辑回归模型具有不同的求解器,用于查找可以为我们提供最佳输出的系数。每个求解器都使用不同的算法来找到最佳结果,并且这些算法都没有一个比另一个更好。除非你尝试所有这些求解器,否则很难判断哪个求解器在你的数据集上表现最好。最好的超参数是「主观的」,并且对于每个数据集都不同。Python 中的 Scikit-learn 库有一组默认的超参数,它们在所有模型上都表现得相当好,「但这些不一定对每个问题都是最好的。
2022-10-21 17:12:49 3549
原创 处理不平衡数据的五种方法
大家好,我是小寒。原文链接你是否曾经遇到过这样的问题:你的数据集中的正类样本非常小,以至于模型无法学习?「在这种情况下,仅通过预测多数类就可以获得相当高的准确度,但无法捕获少数类。」这样的数据集很常见,被称为「不平衡数据集。」不平衡数据集是分类问题的一种特殊情况,其中类之间分布不均匀。通常,它们由两个类组成:多数(负)类和少数(正)类。在不同的领域都会有这样的数据集,例如:「金融」:欺诈检测数据集的欺诈率通常约为 1%-2%「广告服务」:点击预测数据集的点击率也不高。「运输」/「航空
2022-09-23 14:27:13 3090
原创 python 对潜在客户数据集 进行数据分析
大家好,我是小寒。今天给大家带来一篇 探索性数据分析(EDA) 案例分享。如果觉得不错,可以多多分享。什么是探索性数据分析探索性数据分析 (EDA) 是任何数据科学或数据分析项目的重要组成部分。EDA 背后的理念是在构建任何模型之前 「检查和了解数据。」它查看数据集以「发现异常值、模式和关系,并根据对给定数据集的理解形成假设。」以下内容是 EDA 的一部分:从数据集中获得最大的洞察力揭开底层结构从数据集中提取重要特征检查异常值测试假设EDA 是必不可少的,因为在动手之前「了解问题陈述和数据特
2022-09-16 13:51:52 630
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人