学位论文可以用别人爬的数据吗?怎么写才不“踩雷”?

不少研究生写论文的时候,都遇到过类似情况:

“我在GitHub、Kaggle、知乎、豆瓣等平台发现了别人已经爬取好的数据集,感觉正好符合我的研究问题……我能直接拿来用吗?怎么在论文里说明才合规?”

这篇我们就来系统讲讲👇
别人爬的数据能不能用、怎么用、怎么写,不写清楚会不会翻车(甚至被判学术不端)😰


一、论文能不能用别人爬取的数据?

答案是:可以,但有前提条件!

条件1:数据明确公开可用

  • 如果该数据是原平台允许公开访问、无登录或付费门槛,且数据提供者明确写了“可用于学术研究”,那么你就可以使用。

  • 举例:像很多人爬的“微博情感分析数据”“豆瓣影评数据”“知乎问答数据”,如果数据已经脱敏、结构清晰,而且是原平台公开内容,一般可用于学术研究

条件2:明确数据来源、用途和处理方式

  • 不可模糊说“本文使用网络数据”,而要明确:
    • 谁爬的

    • 哪里爬的

    • 如何处理的

    • 数据用途是什么

条件3:不能侵犯隐私或版权

  • 若数据中含有敏感信息、账号、身份证号、联系方式、精准定位等,必须脱敏,否则容易被认定为违反科研伦理

  • 如果是使用别人“爬取但未公开”的数据库,建议不要碰,非常容易惹麻烦。


二、在论文中如何表述“数据来源”?

下面给出几个靠谱的写法👇(按常见用途分类)

1、使用别人爬虫整理好的公开数据(如GitHub/Kaggle)

本文所用数据集来源于 GitHub 用户 xxx 于 2023 年发布的“微博评论情感分类数据集”(https://github.com/xxx/xxx),原始数据爬取自新浪微博公开页面,已完成匿名化处理,供学术研究使用。

本文在此基础上进行了数据清洗与分词处理,并构建情感分析模型进行实证分析。

✅ 优点:合法、清晰、说明有处理过程。


2、自行爬取的数据(但原始平台是公开可爬的)

本文数据来自知乎公开问答平台(www.zhihu.com),爬取时间为2023年10月,使用Python Scrapy框架获取特定话题下的问题与回答文本。

所获数据均为用户已公开发布内容,且仅用于学术研究,不涉及商业用途。为保护用户隐私,本文已对用户ID与昵称进行匿名化处理。

✅ 说明来源+处理方式+隐私保护,合规性强。


3、转用第三方数据平台爬的内容(如豆瓣、微博、百度贴吧)

本研究使用的数据由知乎平台第三方公开项目“豆瓣短评分析数据集”提供,原始数据来自豆瓣电影影评模块,数据来源合法、已进行脱敏,当前广泛用于文本挖掘类研究。数据集地址为:https://github.com/xxx/douban-corpus

在此基础上,本文对数据进行了二次清洗,并构建LDA主题模型进行文本特征提取。


三、注意事项 ⚠️(学术规范雷区)

  1. 不要在论文里说“用爬虫爬了豆瓣数据”,又不说怎么处理的。如果你直接爬了平台数据,还涉及登录、cookie、破解JS,那属于“非公开获取”,必须小心处理。

  2. 不能用有版权争议的数据,比如未经许可的新闻全文、知乎Live音频转录等。

  3. 使用了别人整理的数据,一定要给出处和引用。特别是在GitHub、Kaggle下载的数据,也要写明是谁上传的,链接多少,哪年发布的。

 

能不能用别人爬的数据?当然可以!但一定要写清楚“哪来的、怎么用的、有没有合规”,写清楚了,老师、答辩、盲审都能放心给你过!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值