以下是获取大学生心理健康开源数据集的主要途径及推荐资源:
一、综合数据平台
-
Kaggle
- Students Mental Health Dataset
- 包含东南亚大学生的焦虑、抑郁、压力评分及人口统计信息(性别、专业等)。
- Mental Health in Tech Survey
- 虽面向科技行业,但包含18-60岁人群的心理状态数据,可筛选大学生群体。
- Students Mental Health Dataset
-
UCI Machine Learning Repository
- Student Mental Health Data
- 包含马来西亚大学生的心理评估数据(PHQ-9量表)及学业表现。
- Student Mental Health Data
二、学术研究共享平台
-
Zenodo
- 搜索关键词
"university student mental health"
- 示例数据集:Chinese College Students’ Mental Health
- 包含中国大学生SCL-90量表数据(需审核获取)。
- 搜索关键词
-
OpenNeuro
- 神经影像类数据:
- fMRI Study on Student Stress
- 包含大学生压力任务的脑成像数据。
- fMRI Study on Student Stress
- 神经影像类数据:
三、政府与教育机构
-
WHO Global Health Observatory
- Mental Health Atlas
- 包含各国青少年心理健康统计(筛选18-24岁群体)。
- Mental Health Atlas
-
中国国家心理健康服务平台
- 心理援助数据报告
- 提供区域性的学生心理健康普查摘要(需申请详细数据)。
- 心理援助数据报告
四、高校研究项目
-
哈佛大学 Dataverse
- COVID-19 Impact on Student Mental Health
- 包含疫情期间美国大学生的焦虑、抑郁跟踪数据。
- COVID-19 Impact on Student Mental Health
-
北京大学开放研究数据平台
- 中国大学生心理健康追踪调查
- 需提交研究计划申请访问权限。
- 中国大学生心理健康追踪调查
五、数据采集工具
-
PsyToolKit
- 开源心理学实验平台
- 可自主设计问卷收集数据(支持PHQ-9、GAD-7等标准化量表)。
- 开源心理学实验平台
-
LimeSurvey
- 开源问卷系统,支持导出结构化数据:
# 示例:从LimeSurvey API获取数据 import requests response = requests.get( "https://yourdomain.org/limesurvey/api", params={"survey_id":123, "token":"YOUR_KEY"} )
- 开源问卷系统,支持导出结构化数据:
六、注意事项
- 伦理合规:使用数据前需确认是否符合《赫尔辛基宣言》及当地隐私法规。
- 数据清洗:开源数据常存在缺失值,建议使用Pandas处理:
df = df.dropna(subset=['depression_score']) df['anxiety_level'] = df['anxiety_score'].apply( lambda x: 'high' if x>14 else 'medium' if x>7 else 'low' )
- 数据增强:对小样本数据集可结合SMOTE算法生成合成数据:
from imblearn.over_sampling import SMOTE X_resampled, y_resampled = SMOTE().fit_resample(X, y)
如果需要特定国家/地区的数据,可尝试通过当地教育部门信息公开申请获取(如美国通过FOIA请求)。建议优先选择使用标准化心理评估工具(如PHQ-9、GAD-7、SCL-90)的数据集,以确保研究效度。