- 博客(21)
- 收藏
- 关注
原创 知识体系_scala_利用scala和spark构建数据应用
https://blog.csdn.net/wanglingli95/article/details/134154006https://blog.csdn.net/weixin_39198406/article/details/128277964
2025-10-06 21:33:16
341
原创 知识体系_研究模型_价格敏感度测试模型(PSM)
价格敏感度测试模型(Price Sensitivity Measurement,PSM) ,通过调研潜在用户对于不同价格的满意或接受程度,从而制定出合适的产品价格。价格敏感度PSM模型的分析一般分为以下几个步骤:(1)确定多个价格(2)通过一定的方式(通常是问卷)收集目标客户对不同价格的看法(太便宜、比较便宜、比较贵、太贵)(3)计算累计占比(太便宜和比较便宜向上累计,比较贵和太贵向下累计)
2025-06-15 22:02:34
977
原创 知识体系_数据分析挖掘_基尼系数
基尼系数(gini coefficient)表示在全部居民收入中,用于进行不平均分配的那部分收入占总收入的百分比。社会中每个人的收入都一样、收入分配绝对平均时,基尼系数是0;全社会的收入都集中于一个人、收入分配绝对不平均时,基尼系数是1。现实生活中,两种情况都不可能发生,基尼系数的实际数值只能介于0~1之间。一般认为,基尼系数小于0.2时,显示居民收入分配过于平均,0.2 ~ 0.3之间时较为平均,0.3 ~ 0.4之间时比较合理,0.4 ~ 0.5时差距过大,大于0.5时差距悬殊。
2025-05-20 23:02:31
1157
原创 知识体系_研究模型_用户体验度量模型
CSAT(Customer Satisfaction)指客户满意度,PAST(Product Satisfaction)指产品满意度。顾名思义,其用于衡量客户对产品或服务的体验度量指标。在用户完成某个产品或某项服务的体验后,对其进行满意度调查,以了解用户对产品或服务的满意程度。通常会用1~5分的,选项一般是:非常满意(5分)、满意(4分)、一般(3分)、不满意(2分)、非常不满意(1分);然后计算那些选择”非常满意“和”满意“的用户比例作为”用户满意度评分“,该值越接近100%,说明用户越满意。
2025-04-28 12:40:32
587
原创 知识体系_统计学_05_单总体参数估计
为了推断总体的某些特征(如总体均值、总体比例、总体方差),需要采用一定抽样技术从总体中抽取若干个体,所抽取的部分个体称为样本,样本中所包含个体的数量称为样本量。例如研究某城市居民家庭收入时,随机抽取1000户进行调查,这1000户就是一个样本,样本量是1000,以这1000个个体的收入来推断总体的居民家庭收入,可靠性如何?正是抽样分布要研究的问题。设是从总体中抽取的样本量为n的一个样本,由此样本构造一个函数不依赖于任何未知的参数,则称函数。
2025-03-30 23:15:06
806
原创 知识体系_统计学_21_概率分布表
在利用样本统计量对总体参数进行区间估计和假设检验时,样本统计量的常见的概率分布主要有:正态分布、t分布、分布、F分布等,本文将提供这几种概率分布的概率表,便于需要查找概率值时使用。
2025-03-16 10:51:25
2069
原创 知识体系:信用评分模型技术与应用_08_申请风险评分模型的开发与应用
观察期:观察、提炼与模型所要预测的风险表现有一定相关性的变量的时期表现期:提炼模型所要预测的信用表现的时期。表现期的时间长短没有明确标准,一般对于信用卡,表现期为6至18个月,购房贷款定位24至36个月。表现期长的好处是申请者的风险能充分地表现出来,但问题是由于时间太长,申请者的资信情况可能与申请时的资信情况发生较大变化,从而利用申请前的信息预测未来风险表现(长表现期)可能准确性会下降。而相反地,表现期短的好处是利用申请前的信息预测风险表现(短表现期)准确性较精准。
2025-03-14 08:34:04
869
原创 知识体系_统计学_02_描述性统计
对数据的概括性度量可从三方面进行测量和描述:集中趋势、离中趋势和分布形态。集中趋势,反映的是各数据向其中心值靠拢或聚集的程度;离中趋势,反映的是数据的离散程度,远离中心值的趋势;分布形态反映的是分布的偏态和峰态
2025-01-24 23:16:36
1027
原创 知识体系_统计学_07_假设检验
几乎所有的研究领域都要用到实验,实验设计的目的是为了验证或推翻某个假设;推断统计旨在从有限数据集上得到的实验结果作为对总体的推断,推断统计的流程:参数估计和假设检验是推断统计的两个组成部分,都是利用样本对总体进行某种推断,以抽样分布为理论依据,都是建立在概率基础上的推断,推断结果都有一定可信度和风险;参数估计和假设检验推断的角度不同,参数估计是利用样本统计量估计总体参数,总体参数在估计前是未知的。而假设检验是先对总体参数进行假设,然后利用样本的信息来检验假设是否成立。
2024-10-24 23:20:07
1135
原创 知识体系_统计学_04_抽样
若我们通过某种方式抽样1000户进行调查,则这1000户是一个样本,样本量为1000(ps:我们平时容易混淆xx个样本和样本量的说法,例如我们容易将一个容量为1000的样本,表述成抽取了1000个样本,这样表达其实是错误的)从总体抽取的一个子集就称为一个样本。样本统计量:即对样本数据进行一定运算得到的值,即F(x1,x2,x3......xn),且不依赖于任何未知的参数;推断不同的总体参数,则需要构造不同的样本统计量。总体参数:对总体数据进行一定运算,得到某些代表性的数字,用以反映数据的某些特征。
2024-10-14 22:20:33
1151
原创 知识体系_统计学_01_统计学概述
统计学是一门研究如何从数据到结论的学科,即研究从如何收集数据、整理数据、展示和分析数据,解释数据得出结论的方法论学科,旨在从数据中得到有用的信息
2024-07-06 00:44:34
1061
1
原创 知识体系_数据分析挖掘_01_数据分析概述
数据:对事物的描述和记录,是信息的表现形式数据分析:明确要分析的问题,收集相关数据,处理数据,并借助数据分析方法和工具,对数据进行分析,得到有用的信息和结论,助力科学决策,从而驱动改变,迭代增长(数据--->有用信息/结论)数据分析与数据挖掘:数据挖掘是一种高阶的数据分析方法,侧重解决分类、聚类、关联、预测,重点在于寻找模式与规律,但本质上是一样的,都是从数据里面发现关于业务的知识。注:数据并不局限于狭义上的“数字”,一切可用于分析的素材都可称为数据,还可以是文字、图片、视频、音频等等。
2023-02-05 15:58:35
214
原创 决策树算法原理
一、决策树各算法比较决策树算法主要有:ID3、C4.5、C5.0、CART等算法,下面表格是这几种算法的比较: 算法 分类/回归 特征类型 分裂特征 几叉树 缺点 优点 ID3 分类 离散...
2020-01-22 21:03:03
689
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅