机器学习
文章平均质量分 90
机器学习
小嗷犬
CSDN人工智能领域优质创作者,阿里云专家博主。
展开
-
DataCastle 员工离职预测 Baseline
给定影响员工离职的因素和员工是否离职的记录,建立模型预测有可能离职的员工。评分算法为准确率,准确率越高,说明正确预测出离职员工与留职员工的效果越好。数据主要包括影响员工离职的各种因素工资、出差、工作环境满意度、工作投入度、是否加班、是否升职、工资提升比例等. 以及员工是否已经离职的对应记录。数据分为训练数据和测试数据,分别保存在 train.csv 和 test_noLabel.csv 两个文件中,字段说明如下:Age:员工年龄 Label:员工是否已经离职,1 表示已经离职,2 表示未离职,这是目原创 2024-02-04 17:58:08 · 1441 阅读 · 2 评论 -
机器学习 低代码 ML:PyCaret 的使用
PyCaret是一个开源的低代码 Python 库,专注于简化机器学习(ML)工作流程并加速实验过程。它特别适用于数据科学家、分析师和开发人员,通过减少实现 ML 解决方案所需的繁琐编码工作来提高工作效率。PyCaret 可以在一个统一且用户友好的接口下提供多种机器学习任务的支持,包括但不限于分类、回归、聚类、异常检测、关联规则挖掘等。低代码自动化PyCaret 允许用户通过简洁的 API 调用快速执行数据预处理、特征工程、模型训练、模型评估和模型选择等步骤。原创 2024-01-31 23:06:15 · 1123 阅读 · 0 评论 -
Pandas 并行计算:Pandarallel 的使用
是一个 Python 库,设计用于简化并行处理在 Pandas DataFrame 上的操作,特别针对那些原本串行执行的applymap和applymap等方法。它通过利用多核 CPU 的优势,在本地环境中实现并行计算,从而显著提高数据处理速度。简单易用Pandarallel 无需用户显式管理进程或线程,只需在代码开始处初始化一次,之后就可以直接使用类似 Pandas 的接口进行并行化操作。在初始化时,可以指定参数如来显示进度条,或者调整nb_workers参数以设置使用的 CPU 核心数量。原创 2024-01-30 17:23:19 · 1576 阅读 · 0 评论 -
机器学习 流形数据降维:UMAP 降维算法
UMAP(Uniform Manifold Approximation and Projection)是一种先进的非线性降维技术,用于将高维数据集转换为低维空间中的表示,同时尽可能保留原始数据的复杂结构和拓扑特性。它特别适用于可视化分析和机器学习领域的预处理步骤。原创 2024-01-30 17:23:08 · 2456 阅读 · 1 评论 -
数据科学竞赛平台推荐
Kaggle,成立于 2010 年,于 2017 年 3 月被谷歌收购,目前已是全球最大、最权威的数据科学竞赛平台。Kaggle 以数据科学竞赛为主,同时也提供了 Datasets、Code、Discussions、Learn 等功能。Kaggle 为初学者提供了很多学习资源,同时也设置了很多入门级别的练习赛,如经典的泰坦尼克号生还预测、波士顿房价预测、手写数字识别等,可以帮助初学者快速入门。Kaggle 上的竞赛往往有很高的奖金,吸引了全球的数据科学家参与其中,竞赛的难度也很大,往往需原创 2024-01-12 20:59:14 · 1287 阅读 · 2 评论 -
机器学习 高维数据可视化:t-SNE 降维算法
t-SNE 的全称为 t-Distributed Stochastic Neighbor Embedding,是一种非线性降维算法,它可以将高维数据映射到低维空间,同时保持数据间的相对距离不变。t-SNE 通常用于可视化高维数据,它可以将高维数据映射到二维或三维空间,从而可以通过图形的方式展示数据的特征。相比于 PCA 等线性降维算法,t-SNE 能够更好地保留数据的局部结构,因此在可视化高维数据时,t-SNE 通常能够展示出更好的效果。原创 2023-12-16 23:49:46 · 2183 阅读 · 3 评论 -
机器学习 sklearn 中的超参数搜索方法
在建模时模型的超参数往往会对精度造成一定影响,而设置和调整超参数的取值,往往称为**调参**。在实践中调参往往依赖人工来进行设置调整范围,然后使用机器在超参数范围内进行搜索,找到最优的超参数组合。在 sklearn 中,提供了四种超参数搜索方法:- `GridSearchCV`- `RandomizedSearchCV`- `HalvingGridSearchCV`- `HalvingRandomSearchCV`原创 2023-12-07 22:10:58 · 1486 阅读 · 7 评论 -
机器学习 类别特征编码:Category Encoders 库的使用
是一个用于将分类变量编码为数值的 Python 库,它提供了多种不同的编码技术。这些编码技术可以将分类变量转换成数值表示,以便在机器学习算法中使用。这个库的设计与 scikit-learn 类似,因此可以很容易地与 scikit-learn 的流程和工具集成。对 Pandas DataFrame 的原生支持:它支持 Pandas DataFrame 直接作为输入,也可以指定输出类型为 Pandas DataFrame。灵活的列配置。原创 2023-12-07 20:31:50 · 1326 阅读 · 1 评论 -
2023 年 全国大学生金融科技建模大赛 暨 第四届四川省大学生金融科技建模大赛 初赛数据分析
2023 年 全国大学生金融科技建模大赛 暨 第四届四川省大学生金融科技建模大赛 初赛数据分析,特征类别、缺失率、类别分布、个数分布、建模意见原创 2023-10-16 22:24:09 · 1276 阅读 · 8 评论 -
机器学习 不均衡数据采样方法:imblearn 库的使用
imblearn(全名为)是一个用于处理不平衡数据集的 Python 库。在许多实际情况中,数据集中的类别分布可能是不均衡的,这意味着某些类别的样本数量远远超过其他类别。这可能会导致在训练机器学习模型时出现问题,因为模型可能会偏向于学习多数类别。imblearn欠采样方法:减少多数类别的样本以使其与少数类别相匹配。过采样方法:通过生成合成样本来增加少数类别的样本数量,使其与多数类别相匹配。组合采样方法:结合了欠采样和过采样的技术,以获得更好的平衡。imblearn。原创 2023-10-03 20:57:01 · 2112 阅读 · 5 评论 -
Python sklearn实现K-means鸢尾花聚类
使用开源数据集“鸢尾花数据集”。包含3种类型数据集,共150条数据;数据包含4项特征,花萼长度、花萼宽度、花瓣长度、花瓣宽度;将80%的数据划分为训练集,20%划分为测试集。原创 2022-10-27 13:57:51 · 3465 阅读 · 10 评论 -
Python sklearn实现SVM鸢尾花分类
使用开源数据集“鸢尾花数据集”。包含3种类型数据集,共150条数据;数据包含4项特征,花萼长度、花萼宽度、花瓣长度、花瓣宽度;将80%的数据划分为训练集,20%划分为测试集。原创 2022-10-26 23:46:58 · 2284 阅读 · 2 评论