基于数据帧中数字连续出现的条件概率计算_dataframe统计1连续出现次数-CSDN博客

本文链接：https://blog.csdn.net/wangbadan121/article/details/139788779

在Python中处理这种问题可以通过遍历DataFrame（假设是pandas的DataFrame），并根据条件计算连续出现的数字的概率。以下是一个基本的步骤和示例：

1. **导入必要的库**：首先确保已经安装了numpy、pandas等用于数据处理的库。

```python
import numpy as np
import pandas as pd
from scipy import stats
```

2. **创建或加载DataFrame**：假设你有一个包含数字的DataFrame，列名可能为'number'。

```python
data = {'number': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]} # 示例数据，实际情况可能需要从CSV、Excel等文件加载
df = pd.DataFrame(data)
```

3. **计算连续出现的概率**：

- 对于每个数字，我们需要找到它前一个数字以及它后的数字（如果存在）。
- 然后，计算这些数字的组合数（即nCr），并除以所有可能组合数的和，得到连续出现概率。
- 考虑到数据可能会非常大，我们通常会使用对数来避免浮点误差，所以先计算组合数的对数，再进行相加或乘法运算。

```python
def calculate_probability(num, prev=None, next=None):
    """
    计算连续出现概率。
    :param num: 当前数字
    :param prev: 前一个数字
    :param next: 后一个数字
    :return: 概率
    """
    # 计算组合数对数
    log_comb = np.log(num) + np.log(1 / (num - 1)) # 这部分可能不是正确的，因为我们需要的是nCr的对数
    if prev is not None:
        log_comb += np.log(prev) + np.log(1 / (prev - 1))
    if next is not None:
        log_comb += np.log(next) + np.log(1 / (next - 1))
    # 将对数组合数转换回概率
    prob = np.exp(log_comb)
    return prob

def calculate_continuous_probabilities(df):
    """
    计算DataFrame中连续出现的数字的概率。
    :param df: DataFrame，包含'number'列
    :return: 结果列表
    """
    result = []
    for i, row in df.iterrows():
        num = row['number']
        if i > 0 and i < len(df) - 1: # 确保当前行有前一个和后一个数字
            prev_num = df.iloc[i-1]['number']
            next_num = df.iloc[i+1]['number']
            prob = calculate_probability(num, prev=prev_num, next=next_num)
        elif i > 0: # 如果是第一个数字，只有后一个数字
            prev_num = df.iloc[i-1]['number']
            prob = calculate_probability(num, prev=prev_num)
        elif i < len(df) - 1: # 如果是最后一个数字，只有前一个数字
            next_num = df.iloc[i+1]['number']
            prob = calculate_probability(num, next=next_num)
        else: # 只有一个数字的情况
            prob = 1
        result.append((num, prob))
    return result