物联网数据科学CRONBACH’S ALPHA算法，用于测量内容相关性

九六四一居士

已于 2024-03-25 18:11:20 修改

阅读量788

点赞数 10

文章标签：物联网 python

于 2024-03-25 18:08:26 首次发布

本文链接：https://blog.csdn.net/m0_50580625/article/details/136996303

版权

本文介绍了物联网数据科学中传感器数据收集阶段的关键步骤，重点讨论了如何通过CRONBACH’SALPHA算法评估问卷调查的内部一致性，即reliability，以确保数据标注的可靠性。通过实例计算，展示了alpha值与问卷信度的关系，并提出一个开放性问题：删除哪一行数据能显著提高问卷的reliability。

摘要由CSDN通过智能技术生成

在构建物联网数据科学的传感器管道主要有五个阶段分别是：

1. Determine phenomena to sense and sensors to use

2. Collect sensor data of the phenomena together with ground truth labels

3. Determine appropriate preprocessing steps and features that are good for

the phenomena

4. Train classifiers / regression models based on the features and ground truth

5. Deploy trained models as part of the application

在物联网传感器的第二阶段任务是：收集现象的传感器数据和地面真值标签。

那么如何测量RELIABILITY OF ANNOTATIONS，也就是如何判断对数据进行label的方法是否可靠。在数据科学中有一套公式去判断RELIABILITY OF ANNOTATIONS。

而针对不同类型的方法有不同的可靠性判断：

‒ Test-retest reliability : repeating same test over time

‒ Interrater : same test conducted by different people

‒ Parallel forms : different versions of the test produce equivalent results

‒ Internal consistency : reliability of the individual items on a test

我们今天就讨论一种判断Internal consistency的方法叫做CRONBACH’S ALPHA，这个算法是来评估相似方面的项目是否会产生相似的结果，也就是说设置同样的多个问题的问卷调查表，无论这个表交给多少个参与者去做，得出的结果应该是相似，而不能是大相径庭，这就是说明了这个问卷调查表设计的问题是具有 Internal consistency，也就是reliability的。

那么就开始上例子，如何判断以下问卷调查表questionaire的reliability呢？

我们可以用 CRONBACH’S ALPHA算法来计算这个公式如下：

• Number of items K = 5

• Sum of item variances (Ʃδ Yi 2 ) = 9.9

• Variance in observed test scores (variance of user sums δX 2 ) = 34.3

• Cronbach’s alpha = 5 / (5 – 1) * (1 – 9.9 / 34.3) = 0.89

• Rule-of-thumb: good reliability

也就是说K是item的个数， ƩδYi 2是每一列方差之和，δX 2 是每一行和的方差，得出的 Cronbach’s alpha就是这个问卷的reliability。

这是不同 alpha值对应不同的等级reliability。

那么以下表格的reliability怎么样？

import numpy as np

# Participants' answers
answers = np.array([
    [5, 2, 3, 5, 4],
    [4, 3, 5, 4, 3],
    [4, 2, 4, 1, 1],
    [4, 3, 5, 4, 2],
    [3, 1, 1, 2, 3],
    [1, 2, 3, 4, 5],
    [2, 2, 3, 2, 2]
])

# Calculate Cronbach's alpha
num_participants, num_questions = answers.shape
print(num_questions)
mean_scores = np.mean(answers, axis=0)
total_score_var = np.var(np.sum(answers, axis=1))
question_var = np.sum(np.var(answers, axis=0))
alpha = (num_questions / (num_questions - 1)) * (1 - (question_var / total_score_var))

print("Cronbach's alpha for the questionnaire:", alpha)

输出结果如下：