学位论文可以用别人爬的数据吗？怎么写才不“踩雷”？

PaperTen论文查重

于 2025-05-14 23:12:57 发布

阅读量575

点赞数 16

文章标签：论文笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2509_91422757/article/details/147965246

版权

不少研究生写论文的时候，都遇到过类似情况：

“我在GitHub、Kaggle、知乎、豆瓣等平台发现了别人已经爬取好的数据集，感觉正好符合我的研究问题……我能直接拿来用吗？怎么在论文里说明才合规？”

这篇我们就来系统讲讲👇
别人爬的数据能不能用、怎么用、怎么写，不写清楚会不会翻车（甚至被判学术不端）😰

一、论文能不能用别人爬取的数据？

答案是：可以，但有前提条件！

条件1：数据明确公开可用

如果该数据是原平台允许公开访问、无登录或付费门槛，且数据提供者明确写了“可用于学术研究”，那么你就可以使用。
举例：像很多人爬的“微博情感分析数据”“豆瓣影评数据”“知乎问答数据”，如果数据已经脱敏、结构清晰，而且是原平台公开内容，一般可用于学术研究。

条件2：明确数据来源、用途和处理方式

不可模糊说“本文使用网络数据”，而要明确：
- 谁爬的
- 哪里爬的
- 如何处理的
- 数据用途是什么

条件3：不能侵犯隐私或版权

若数据中含有敏感信息、账号、身份证号、联系方式、精准定位等，必须脱敏，否则容易被认定为违反科研伦理。
如果是使用别人“爬取但未公开”的数据库，建议不要碰，非常容易惹麻烦。

二、在论文中如何表述“数据来源”？

下面给出几个靠谱的写法👇（按常见用途分类）

1、使用别人爬虫整理好的公开数据（如GitHub/Kaggle）

本文所用数据集来源于 GitHub 用户 xxx 于 2023 年发布的“微博评论情感分类数据集”（https://github.com/xxx/xxx），原始数据爬取自新浪微博公开页面，已完成匿名化处理，供学术研究使用。

本文在此基础上进行了数据清洗与分词处理，并构建情感分析模型进行实证分析。

✅ 优点：合法、清晰、说明有处理过程。

2、自行爬取的数据（但原始平台是公开可爬的）

本文数据来自知乎公开问答平台（www.zhihu.com），爬取时间为2023年10月，使用Python Scrapy框架获取特定话题下的问题与回答文本。

所获数据均为用户已公开发布内容，且仅用于学术研究，不涉及商业用途。为保护用户隐私，本文已对用户ID与昵称进行匿名化处理。

✅ 说明来源+处理方式+隐私保护，合规性强。

3、转用第三方数据平台爬的内容（如豆瓣、微博、百度贴吧）

本研究使用的数据由知乎平台第三方公开项目“豆瓣短评分析数据集”提供，原始数据来自豆瓣电影影评模块，数据来源合法、已进行脱敏，当前广泛用于文本挖掘类研究。数据集地址为：https://github.com/xxx/douban-corpus

在此基础上，本文对数据进行了二次清洗，并构建LDA主题模型进行文本特征提取。

三、注意事项 ⚠️（学术规范雷区）

不要在论文里说“用爬虫爬了豆瓣数据”，又不说怎么处理的。如果你直接爬了平台数据，还涉及登录、cookie、破解JS，那属于“非公开获取”，必须小心处理。
不能用有版权争议的数据，比如未经许可的新闻全文、知乎Live音频转录等。
使用了别人整理的数据，一定要给出处和引用。特别是在GitHub、Kaggle下载的数据，也要写明是谁上传的，链接多少，哪年发布的。

能不能用别人爬的数据？当然可以！但一定要写清楚“哪来的、怎么用的、有没有合规”，写清楚了，老师、答辩、盲审都能放心给你过！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。