自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 因子分析实现

在对数据进行因子分析之前需要先对数据进行KMO检验,计算 KMO 值,我们可以根据结果来判断数据集是否适合使用因子分析或其他降维方法。一般来说,如果 KMO 值大于0.6,则数据集具有较好的因子结构,可以考虑使用因子分析等技术来分析数据;如果 KMO 值小于0.6,则数据集可能不适合使用因子分析等技术,需要进一步检查数据集的质量并重新评估分析方法。需要注意的是,如果 Bartlett 球形度检验的 p 值小于显著性水平(通常为 0.05),则表明数据集不适合使用因子分析或相关技术。

2023-04-14 03:40:30 1938 1

原创 描述性统计以及离群点处理

根据箱线图上下界的定义,我们可以使用IQR(四分位距)方法来检测和处理离群值。基于统计学方法的离群值检测方式是将数据集中所有数据标准化为z-score(标准差),然后找出超过指定阈值的值作为离群值进行处理。常见的阈值有3和2,分别表示3个标准差和2个标准差。显然在这个众数应该是在十万以内,然而在查看是否符合正态分布的时候python自动生成的图片,去到了40万。需求:对数据进行描述性统计的过程中发现了可能存在离群点,离群点的存在会影响描述性统计以及后面的数据挖掘。取得离群点后,进行去除。

2023-04-14 02:58:04 313 1

原创 python格式转化为表格

先用识图软件将文字提取,而后利用python中的字典构造数据集,最后利用dataframe构造,最后利用excel进行专职。需求:将图片变成表格。

2023-04-13 21:14:01 328 1

原创 高斯朴素贝叶斯算法

课后修正:存在的问题有没有解释高斯,高斯实际上就是数据是服从高斯分布的,朴素贝叶斯和贝叶斯算法不同,朴素贝叶斯针对高维数据的计算做出简化,假设高维数据各个特征并不相关,那么计算后验概率的时候可以把乘法改成用加法。而后将新的数据带入贝叶斯公式利用不同类型发生情况的概率(先验概率)和观测值算出一系列概率,最后取其中最大的一个作为最终的概率。在一个房间中,穿红色衣服的人一定是病人,工作人员中有一半的人穿红色衣服一半穿白色衣服。直接对已经有的数据进行估计,估计它的分布,得到一系列的先验概率。

2023-03-16 16:47:03 506

原创 Python实现最优k折叠的示例代码

方法返回一个可迭代的生成器对象,该对象生成k个元组,每个元组包含训练集和测试集的索引。选择数据集的训练集和测试集。最后,我们训练和测试模型,并重复以上步骤k次。方法来生成训练和测试数据集的索引。类来创建一个k折叠对象。

2023-03-15 14:48:19 256 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除