数据分析
文章平均质量分 70
数据分析
acmakb
火车是向前开的.
展开
-
独热编码的两种实现形式
总的来说,OneHotEncoder适用于处理整数标签编码的分类特征,输出稀疏矩阵,不处理缺失值,并且需要显式拟合和转换数据。DictVectorizer适用于处理字典格式或DataFrame格式的分类特征,输出稠密矩阵,可以处理缺失值,并且不需要显式拟合。选择哪种方法取决于数据的特点和使用的上下文。原创 2024-01-01 14:18:28 · 681 阅读 · 0 评论 -
数据转换的三剑客:Pandas 中 apply、map 和 applymap 方法的应用指南
apply方法适用于 DataFrame 和 Series 对象,可以将自定义函数应用于行或列,实现元素级别的转换和处理。map方法适用于 Series 对象,用于对每个元素进行映射操作,可以使用函数、字典或其他 Series 对象进行映射。applymap方法适用于 DataFrame 对象,用于对每个元素进行元素级别的转换和处理。原创 2024-01-01 11:33:30 · 542 阅读 · 0 评论 -
Pandas中concat的用法
当涉及到合并连接多个 DataFrame 对象时,concat函数是一个非常有用的工具。以下是对concatconcatconcat函数可以将多个 DataFrame 对象连接在一起,形成一个新的 DataFrame。这对于合并来自不同源的数据或者将数据拆分为更小的块进行处理非常有用。纵向拼接数据:通过设置axis=0concat函数可以将具有相同列的多个 DataFrame 对象按行方向(纵向)拼接起来。这样可以将数据堆叠在一起,增加行数。横向拼接数据:通过设置axis=1concat。原创 2023-12-29 21:03:44 · 824 阅读 · 0 评论 -
谈谈数据归一化与标准化
归一化(Normalization)和标准化(Standardization)是常用的数据预处理技术,用于将不同范围或不同单位的特征值转换为统一的尺度,以便更好地进行数据分析和模型训练。标准化是通过减去均值并除以标准差来使数据具有均值为0,标准差为1的分布,而不是将数据映射到特定的范围,所有结果结果不一定都在0-1之间。其中,X是原始特征数据,X_min是该特征的最小值,X_max是该特征的最大值。其中,X是原始特征数据,X_mean是该特征的均值,X_std是该特征的标准差。原创 2023-12-14 11:30:28 · 304 阅读 · 0 评论 -
Kmeans聚类模型可视化大合集
当对K-means聚类模型进行可视化时,有多种展示形式可以帮助我们理解和分析聚类结果。原创 2023-12-07 11:28:00 · 753 阅读 · 0 评论 -
一篇文章真正讲懂模型评估指标(准确率,召回率,精确率,roc曲线,AUC值)
在机器学习领域,评估模型性能是至关重要的一步。本篇博客将重点讨论模型评估指标中的准确率,召回率,精确率,AUC值以及ROC曲线,并提供了相应的代码实现。召回率是衡量模型在识别正例中正确率的指标,而ROC曲线则是一种直观且常用的模型评估工具。通过阅读本篇博客,读者将对模型评估指标中的召回率和ROC曲线有更深入的理解,并掌握了使用Python实现这些指标的方法。这些知识和技巧将帮助读者更好地评估和优化自己的机器学习模型。原创 2023-11-11 20:57:37 · 1619 阅读 · 0 评论 -
DataFrame 对象导入mysql数据库
在数据分析和处理过程中,将 DataFrame 数据导入数据库是一个常见的任务。本文将提供一个完整的指南,介绍如何将 DataFrame 类型的数据导入到数据库中。我们将使用 Python 中的 pandas 和 SQLAlchemy 库来实现这一目标。原创 2023-11-06 23:35:37 · 2516 阅读 · 2 评论 -
机器学习决策树可视化graphviz 配置
然后随便选择一个版本安装即可(不太建议安装最新版本,建议安装比最新版本低2-3个版本)。注意:添加到我们刚才按照目录下的bin目录为止。后面我们手动添加环境变量即可.然后下一步就安装好了。原创 2023-11-02 15:25:38 · 223 阅读 · 1 评论 -
数据预处理常用操作
在数据清洗过程中,我们可以使用多种操作来处理数据中的问题。以下是对之前提到的常见数据清洗操作的总结:删除重复值:通过drop_duplicates()函数可以删除数据中的重复行,确保数据的唯一性。处理缺失值:使用dropna()函数可以删除包含缺失值的行或列;使用fillna()函数可以填充缺失值为指定的值或使用前一个非缺失值(ffill)、后一个非缺失值(bfill)进行填充。数据类型转换:通过astype()函数可以将列的数据类型转换为指定的类型,如整数、浮点数、字符串等。数据筛选:可以原创 2023-10-31 21:27:03 · 92 阅读 · 0 评论