数据西瓜皮-CSDN博客

原创 pandas 统计文件夹下所有Excel评分表平均分

有N组人员进行了presention，有M个评委分别对这N组的presention进行了K个维度的打分，评委使用Excel进行打分，因此产生了M个Excel文件。现在要求每个小组每个维度的平均分以及总分的平均分。

2023-02-01 11:55:54 281

原创 python学习资源

本篇为我收集到的比较好的python学习资源，不定期更新。欢迎大家在评论区相互推荐更多更好的资源~1）来自廖雪峰官方网站的python文字教程

2020-04-26 16:49:13 202

原创 R语言-t检验

R语言-t检验这是一篇学习笔记。正态性检验由于t检验的前提假设是总体服从正态分布，因此在进行t检验之前要先进行正态性检验，观察我们用于t检验的样本是否服从正态分布。画图法1.画直方图，观察形状是否为倒钟形，若为倒钟形那便是接近正态分布的hist(data$col1)2.画QQ图，观察形状是否是一条连接主对角线的线，若是，那便是接近正态分布的qqnorm(data$col1)3...

2019-05-04 11:45:45 16455 1

原创缺失值填充：关于年龄特征

不妥之处，欢迎评论指出。缺失值填充这回事我们第一能想到的就是使用0进行填充，但是如果是年龄的话直接使用0进行填充就有点不太靠谱了，那么怎么办呢？情况一：全样本均值填充如果整个样本群体的年龄方差不大，比如整个样本来源于初中生，年龄在13-15岁之间，那么直接使用全样本的均值填充即可。情况二：分类样本均值填充但是真实情况往往不会这么美好，哪怕是初中生也会有急着早读书的学生和可怜巴巴的留级生，...

2018-11-04 17:40:49 3015

原创数据处理技巧

说明：本篇为数据处理技巧的合集，不定期更新。特征选择1.相关分析后指标二选一怎么选？相关分析后我们需要对高度相关的指标组进行处理，选择原则如下：（1）优先留下业务上更重要的指标。比如，历史购买总金额与历史购买次数高度相关了，由于某次分析的目的是寻找重点客户（目标导向很重要，这个需要与业务方进行沟通，统一业务口径），所以这次分析中历史购买总金额指标在重要性上略胜一筹，留下历史购买总金额这个指...

2018-11-04 17:28:53 267

原创数据处理：计算用户得分进行用户重要性排名

场景说明假设我们有10000个用户的信息（涉及四个指标，不排除指标之间有相关性），我们希望能够对用户进行重要性排名，找出最重要的用户进行业务上的重点观察（业务方设定这部分用户占总体用户的20%）。四个指标的特性如下：指标名称指标特性单因素排序时的处理方式指标重要级别历史消费金额越大越好降序取前20%****历史违约次数越小越好升序取前20%*...

2018-11-04 17:03:14 1298

原创 R语言：向量、矩阵、数据框、因子、有序变量基本操作

说明：1、R语言中下标从1开始2、R语言里的TRUE要全部大写向量 c向量中所有元素的类型要相同，标量是只有一个元素的特殊向量#R语言向量切片> a<-c(1,2,3,4,5,6) #构造一个向量> a[3] #取向量的第3个元素[1] 3> a[1:3] #取向量的第1-3个元素（包头并且包尾，一共3个数）[1] 1 2 3> a[1,3...

2018-10-09 21:31:38 4693

原创偏态与峰度

一、偏态左右不对称即为偏态口诀一：看长尾在哪边就是往哪偏口诀二：峰左移，右偏态；峰右移，左偏态数据状态描述图示mean>median>mode正偏态、右偏态mean<median<mode负偏态、左偏态mode=median=mean对称分布我们为什么要去看数据的偏态？1、更加全面的了解数据的分布，使用mode、...

2018-10-06 18:09:16 12613 3

原创 K-modes聚类-全中文特征-非数值型特征

最近对K-modes聚类进行了简单尝试，产生了一点小小感悟，在此和大家分享一下，若有不妥之处欢迎大家留言讨论。场景：所有用于聚类的变量都是中文类别变量，非常懒非常硬核就是不想数值化之后再聚类，选择了K-modes，用的PyPI封装好的包：PyPI的K-modes包地址关于使用K-modes聚类之后如何总结各个类别特征的方法：1、直接查看类别中心，类别中心是对这个类别最简单的总结概括。pri...

2018-09-30 20:16:43 5739 2

原创假设检验（一）：假设检验总体概念

写在前面的话：最近在学习统计学，这里仅仅是一些学习笔记，方便我自己回顾以及供大家参考。对于统计学我只是初学者，有什么错误之处欢迎大家指出。共同学习，共同进步~一、总体概念假设检验是一种统计推断方法，其主要用来判断样本与样本、样本与总体之间的差异是由于偶然的抽样误差造成的还是由于本质差别造成的。具体说来就是：当遇到两个或几个样本之间，或者样本与总体之间某些统计量（e.g.X¯X¯\b...

2018-08-12 19:15:07 1714

weixin_38322363的博客