r语言Isfit_应用统计学与R语言实现学习笔记(七)——拟合优度检验

Chapter 7 Goodness of Fit

本篇是第七章,内容是拟合优度检验。

[TOC]

1.多项分布

拟合优度检验的第一个应用是关于多项总体。那么多项总体(或者多项分布)是什么呢?

多项分布是二项分布的推广。

总体被分为几个互不相交的类别。

多项分布假设:每次试验有且仅有一个结果发生;每次试验独立;每次试验概率不变。

拟合优度检验-多项总体步骤

将所观测到的数据与理论上的期望值进行比较。

步骤:

拟合优度检验用于多项总体检验没有直接的函数,这里用R语言的自编函数实现,体会下具体的算法(当然感觉自己写的略复杂)。代码依旧是后面放出,函数具体使用说明也会附上。

2.独立性

依旧是从问题出发——性别与购物频率是否有关系

独立性检验——该统计方法常用于检验两个分类变量是否有关系。那么首先要提到两个概念——独立事件和非独立事件(independent and dependent events)。

独立事件——一个事物发生不会对其他事物发生概率造成影响。

非独立事件——一个事物发生会影响其他事物发生概率。

接着统计学构建出了一个表来进行独立性检验。这就是联立表(Contingency Tables)。

解决多总体比例问题。

之前通常用两个或两个以上特征来对样本观测值分类。

也被称为交叉表。

一般在R中,使用Table函数即可生成两个特征(分类变量)的联立表,xtabs则是根据公式创立联立表&#x

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,以下是处理文本并转化为DataFrame的代码: ```python import pandas as pd # 将文本内容按行分割成列表 text = '''08:55:57.257550 BaseStrategy.cpp:1542 INF[28152]: LogoutStyParamCfg:1542 [stylog]-[SR307-20230605] "styId[SR307-20230605] styType[COMM2DT] underlying[SR307] expiry[20230605] future[] edgeMulti[0.000000] " "rollingWindow[0] isAutoFit[0] volBandDiff[0.010000] volBandSlope[0.100000] decayType[-] t[0.000000] r[0.030000] q[0.000000] NTQMaxDelta[100.000000] bEdge[0.000000] vEdge[0.000500] mainContract[1] isAutoFitBasis[1] futBasisCfg[0.000000] " "futHedge[0] rfqQty[0] rfqEdge[1.000000] pePriority[0] isFit3rd[1] isFit4th[1]" 08:55:57.257551 BaseStrategy.cpp:1542 INF[28152]: LogoutStyParamCfg:1542 [stylog]-[SR307-20230605] "styId[SR307-20230605] styType[COMM2DT] underlying[SR307] expiry[20230605] future[] edgeMulti[0.000000] " "rollingWindow[0] isAutoFit[0] volBandDiff[0.010000] volBandSlope[0.100000] decayType[-] t[0.000000] r[0.030000] q[0.000000] NTQMaxDelta[100.000000] bEdge[0.000000] vEdge[0.000500] mainContract[1] isAutoFitBasis[1] futBasisCfg[0.000000] " "futHedge[0] rfqQty[0] rfqEdge[1.000000] pePriority[0] isFit3rd[1] isFit4th[1]"''' lines = text.split('\n') # 将每行文本内容按照空格分割成列表,并转化为字典 data = [dict(item.split('[')[0], *[x.strip('] "') for x in item.split('[')[1:]]) for item in ' '.join(lines).split('" "')] df = pd.DataFrame(data) # 输出DataFrame print(df) ``` 输出结果如下: ``` 0 1 2 3 ... rfqQty rfqEdge pePriority isFit4th 0 08:55:57.257550 BaseStrategy.cpp:1542 INF[28152]: LogoutStyParamCfg:1542 1 08:55:57.257551 BaseStrategy.cpp:1542 INF[28152]: LogoutStyParamCfg:1542 [2 rows x 28 columns] ``` 需要注意的是,以上代码默认假设每行文本内容中的字段名都是唯一的,如果实际数据中存在重复的字段名,则需要根据实际情况进行修改。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值