自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 Python实战:构建一个自动化的MOOC课程评论爬虫

该实战代码主要实现了通过扫码登录并利用Selenium爬取MOOC课程信息的完整流程。创建一个函数用于删除已存在的文件并创建一个新的目录。它首先获取文件名的目录部分,然后检查该目录是否存在,如果不存在则创建它。如果文件已存在,则删除它。

2024-06-27 11:06:08 1049

原创 Selenium实现MOOC课程评论的自动爬取

在当今信息化爆炸的时代,我们想要获取某些网站中的某些数据信息(如淘宝的用户使用协议、MOOC课网站的某一课程的评论等)都会有大量相关内容涌现在我们眼前,我们想要了解这些内容可能要一行一页的翻看记录收集(我们将此称为传统方法),按照传统方法完成一个项目可能80%~90%的时间用于获取和处理数据,为了提高我们的数据获取和处理的效率,帮助我们自动完成数据的翻看记录过程,爬虫技术随之而生。爬虫,也称为网络爬虫或蜘蛛程序(spider),是一种自动获取网页内容的程序或脚本。

2024-05-08 18:50:52 1017

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除