- 博客(2)
- 收藏
- 关注
原创 Python实战:构建一个自动化的MOOC课程评论爬虫
该实战代码主要实现了通过扫码登录并利用Selenium爬取MOOC课程信息的完整流程。创建一个函数用于删除已存在的文件并创建一个新的目录。它首先获取文件名的目录部分,然后检查该目录是否存在,如果不存在则创建它。如果文件已存在,则删除它。
2024-06-27 11:06:08 1049
原创 Selenium实现MOOC课程评论的自动爬取
在当今信息化爆炸的时代,我们想要获取某些网站中的某些数据信息(如淘宝的用户使用协议、MOOC课网站的某一课程的评论等)都会有大量相关内容涌现在我们眼前,我们想要了解这些内容可能要一行一页的翻看记录收集(我们将此称为传统方法),按照传统方法完成一个项目可能80%~90%的时间用于获取和处理数据,为了提高我们的数据获取和处理的效率,帮助我们自动完成数据的翻看记录过程,爬虫技术随之而生。爬虫,也称为网络爬虫或蜘蛛程序(spider),是一种自动获取网页内容的程序或脚本。
2024-05-08 18:50:52 1017
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人