数据探索与可视化
文章平均质量分 86
Cosophia
不懂就是不懂
展开
-
特征工程:数据平衡
大多数情况下,使用的数据集是不完美的,会出现各种各样的问题,尤其针对分类问题的时候,会出现类别不平衡的问题。例如:在垃圾邮件分类时,垃圾邮件数据会有较少的样本量,从而导致两种类型的邮件数据量差别很大;在欺诈监测数据集中,往往包含的欺诈样本并没有那么多。处理这类数据集的分类的时候,需要对数据集的类不平衡问题进行处理。数据分析的整个过程的介绍就结束了,那接下来就是关于模型的选择与评估问题,只不过对数据分析着实重要,在之后的几篇当中,我们需要对数据分析有着更加细致的了解或者案例切入。原创 2024-02-10 03:57:58 · 488 阅读 · 0 评论 -
特征工程:特征提取和降维-下
通过上篇对线性与非线性的数据的特征提取和降维的学习之后,我们来介绍其他方法,分别有流行学习、多维尺度分析、t-SNE。原创 2024-02-08 00:33:34 · 813 阅读 · 0 评论 -
特征工程:特征提取和降维-上
前面介绍的特征选择方法获得的特征,是从原始数据中抽取出来的,并没有对数据进行变换。而特征提取和降维,则是对原始数据的特征进行相应的数据变换,并且通常会选择比原始特征数量少的特征,同时达到数据降维的目的。常用的数据特征提取和降维的方法有主成分分析,核成分分析,流行学习,t-SNE,多维尺度分析等方法。原创 2024-02-08 00:01:35 · 1066 阅读 · 0 评论 -
特征工程:特征选择
特征选择是使用某些特征统计的方法,从数据中选出有用的特征,把数据中无用的特征抛弃掉,该方法不会产生新的特征,常用的方法有基于统计方法的特征选择、利用地柜消除法选择有用的特征、利用机器学习算法选择重要的特征等。原创 2024-02-07 00:44:27 · 1404 阅读 · 0 评论 -
特征工程:特征构建
特征工程中的特征构建的主要目的是生成新的特征,而针对不同的特征,有多种方式可以形成新的特征,例如有针对分类特征、针对数值特征和针对文本特征对其进行生成新的特征。原创 2024-02-06 15:47:52 · 1990 阅读 · 0 评论 -
特征工程:特征变换
特征工程作为机器学习数据准备的核心任务,我们应当重视这一部分的数据的处理工作,主要就是通过变换数据集的特征空间,从而提高数据集的预测模型性能。针对数据集的不同情况,我们可以有多种选择对数据集的特征工程进行处理,如:特征变换,特征构造,特征选择,特征提取或降维,又或者是数据平衡。那么接下来我们将对特征工程中的特征变换先做介绍。特征变换讲到这里就结束了,希望能够对你有帮助。原创 2024-02-05 16:22:28 · 1102 阅读 · 0 评论 -
数据探索与可视化:数据样本距离
接下来,我们进入数据探索与可视化的最后一个部分:数据样本距离。对于给定的数据样本,每个样本具有多个特征,因此每个样本均是高维空间的一个点,那么在高维空间当中如何比较样本之间的距离远近或相似程度是个重要的点。 距离在聚类分析,分类等多种应用中都有重要地位,不同的距离度量的方式可能会有不同的分析结果,那么接下来让我们来看看都有哪些: 欧式距离可解释为。欧式距离公式非常简单,使用勾股定理从这些点的计算距离。 缺点:尽管这是一种常用的距离度量,但欧式距离并的,这意味着所计算的距离可能会根据。通常,在使用欧式距离度量原创 2024-02-03 23:57:11 · 956 阅读 · 0 评论 -
数据探索与可视化:可视化分析数据-下
那么本篇将互怼其他类型的数据分析的可视化方法进行介绍,它们分别是:时间序列,文本数据,社交网络数据。plt.show()通过pd的read_csv的方法对数据进行读取,然后刻画折线图,俺么我们就能得出随着时间的变化值的变化大小。当然在数据当中我们还未对缺失的数据进行处理以及一些异常值的过滤,这些将交给你,通过处理后的数据进行可视化才能够更加的完善,判断数据的变化趋势才有足够的根据性。原创 2024-02-02 18:05:42 · 957 阅读 · 0 评论 -
数据探索与可视化:可视化分析数据关系-中
在做数据分析的时候,很少会遇到连续变量和分类变量,更多的是需要我们对同时包含连续变量和分类变量进行可视化分析。所以我们在在本篇当中要开始来学习如何处理同时包含连续变量和分类变量进行可视化分析的问题。开始之前还是老样子,先导包和获取数据,得到之后,我们将数据变成长型数据用到melt方法,Id和Species变量与其他数据的变化无关所以我们不将这两个数据进行融合。我们就能得出如上的数据,那么接下来就是开始使用可视化,我们可以使用箱线图,分析在不同分类变量下,连续变量的分布情况。plt.show()原创 2024-02-01 23:53:14 · 1003 阅读 · 0 评论 -
数据探索与可视化:可视化分析数据关系-上
有这么一个事实:人类更加善于在图中发现规律,在单纯的文本与数据本身,少量的规模或许轻而易举,但是只要规模大,那我们的分析过程就会十分漫长,得出趋势结论会有所遗漏,这时候对数据进行描述的图的存在意义非凡,不容忽视。原创 2024-02-01 01:49:23 · 1451 阅读 · 0 评论 -
数据探索与可视化:数据描述-下
偏度和峰度是用来描述数据分布特征统计量的指标。偏度又称偏态系数,用于衡量分布的不对称或偏斜程度的指标;峰度又称峰态系数,用来衡量数据尾部分散度的指标。原创 2024-01-29 18:28:03 · 425 阅读 · 0 评论 -
数据探索与可视化:数据描述-上
数据描述统计是通过分析数据的统计特征,让我们对数据的理解程度能够加深,从而利用合适的机器学习方法,对数据集进行数据分析,数据的描述统计有四个部分:数据集中位置,离散程度,偏度和峰度以及单个数据变量的分布情况,本篇先从数据集中和离散程度入手。原创 2024-01-28 20:46:02 · 384 阅读 · 2 评论 -
数据探索与可视化:异常值
通过学习对异常值的发现,加强对数据进行分析的能力。原创 2024-01-30 16:33:21 · 1219 阅读 · 1 评论 -
数据描述的统计量解释-下
在下篇我们来介绍关于偏峰度与相关系数的统计量的介绍对于数据描述的统计量到这里就结束了,希望能对你有所帮助。原创 2024-02-04 14:48:40 · 956 阅读 · 0 评论 -
数据描述的统计量解释-上
对于众数、中位数、极差简单概念这里不再过多强调,下面开始来介绍。原创 2024-02-04 15:45:00 · 1100 阅读 · 0 评论 -
数据探索欲可视化:数据值缺失处理-下
这节我们来介绍对于复杂的数据值缺失问题的解决方法,能从整体上去考虑数据的分布情况,iterativeimputer的确是个不错的方法,但是面对大规模的数据,由于是迭代,计算量十分之大,而且遇到了特征相关性较低或者稀疏数据的时候,terativeimputer方法无法得到准确的填充结果,于是我们在接下来不会对此进行介绍,我们要使用的是K-近邻插补。可以发现相对上一篇的前后值、均值填充,K-邻近的填充相较更合理。通过代码让大家能初步的去了解,在之后的文章当中我们具体来提及原理。原创 2024-01-27 17:29:47 · 421 阅读 · 0 评论 -
数据探索与可视化:数据值缺失处理 -上
使用缺失值前后的值对其填充,用到的方法为fillna(),method设置为ffill为对缺失值前面的值对缺失值进行填充,method设置为bfill为对缺失值后面的值对缺失值进行填充.先用read_csv("文件路径")对存储的数据文件进行读取并放入变量当中,然后使用isna()方法判断每个变量是否为缺失值,然后将缺失值进行求和我们则会得到各个数据项对应的缺失值。对数据中的某一数据项进行均值计算(运用到mean()方法),然后同样适用fillna()方法,对value赋值,将求好的均值传递进去。原创 2024-01-27 00:11:35 · 695 阅读 · 0 评论