不少研究生写论文的时候,都遇到过类似情况:
“我在GitHub、Kaggle、知乎、豆瓣等平台发现了别人已经爬取好的数据集,感觉正好符合我的研究问题……我能直接拿来用吗?怎么在论文里说明才合规?”
这篇我们就来系统讲讲👇
别人爬的数据能不能用、怎么用、怎么写,不写清楚会不会翻车(甚至被判学术不端)😰
一、论文能不能用别人爬取的数据?
答案是:可以,但有前提条件!
条件1:数据明确公开可用
-
如果该数据是原平台允许公开访问、无登录或付费门槛,且数据提供者明确写了“可用于学术研究”,那么你就可以使用。
-
举例:像很多人爬的“微博情感分析数据”“豆瓣影评数据”“知乎问答数据”,如果数据已经脱敏、结构清晰,而且是原平台公开内容,一般可用于学术研究。
条件2:明确数据来源、用途和处理方式
- 不可模糊说“本文使用网络数据”,而要明确:
-
谁爬的
-
哪里爬的
-
如何处理的
-
数据用途是什么
-
条件3:不能侵犯隐私或版权
-
若数据中含有敏感信息、账号、身份证号、联系方式、精准定位等,必须脱敏,否则容易被认定为违反科研伦理。
-
如果是使用别人“爬取但未公开”的数据库,建议不要碰,非常容易惹麻烦。
二、在论文中如何表述“数据来源”?
下面给出几个靠谱的写法👇(按常见用途分类)
1、使用别人爬虫整理好的公开数据(如GitHub/Kaggle)
本文所用数据集来源于 GitHub 用户 xxx 于 2023 年发布的“微博评论情感分类数据集”(https://github.com/xxx/xxx),原始数据爬取自新浪微博公开页面,已完成匿名化处理,供学术研究使用。
本文在此基础上进行了数据清洗与分词处理,并构建情感分析模型进行实证分析。
✅ 优点:合法、清晰、说明有处理过程。
2、自行爬取的数据(但原始平台是公开可爬的)
本文数据来自知乎公开问答平台(www.zhihu.com),爬取时间为2023年10月,使用Python Scrapy框架获取特定话题下的问题与回答文本。
所获数据均为用户已公开发布内容,且仅用于学术研究,不涉及商业用途。为保护用户隐私,本文已对用户ID与昵称进行匿名化处理。
✅ 说明来源+处理方式+隐私保护,合规性强。
3、转用第三方数据平台爬的内容(如豆瓣、微博、百度贴吧)
本研究使用的数据由知乎平台第三方公开项目“豆瓣短评分析数据集”提供,原始数据来自豆瓣电影影评模块,数据来源合法、已进行脱敏,当前广泛用于文本挖掘类研究。数据集地址为:https://github.com/xxx/douban-corpus
在此基础上,本文对数据进行了二次清洗,并构建LDA主题模型进行文本特征提取。
三、注意事项 ⚠️(学术规范雷区)
-
不要在论文里说“用爬虫爬了豆瓣数据”,又不说怎么处理的。如果你直接爬了平台数据,还涉及登录、cookie、破解JS,那属于“非公开获取”,必须小心处理。
-
不能用有版权争议的数据,比如未经许可的新闻全文、知乎Live音频转录等。
-
使用了别人整理的数据,一定要给出处和引用。特别是在GitHub、Kaggle下载的数据,也要写明是谁上传的,链接多少,哪年发布的。
能不能用别人爬的数据?当然可以!但一定要写清楚“哪来的、怎么用的、有没有合规”,写清楚了,老师、答辩、盲审都能放心给你过!