Python爬虫实践(十一):selenium+phantomjs+正则表达式爬取文章并保存
最新推荐文章于 2023-01-13 22:37:22 发布
本文介绍了如何在Ubuntu环境下使用Python爬虫结合selenium和phantomjs抓取《三联生活周刊》中关于英国“脱欧”的文章内容。首先,安装wingide 5.0.1并进行破解,接着安装PhantomJS和selenium。通过观察页面源代码,使用正则表达式匹配文章段落。最后,定义工具类tool清除不需要的元素,成功获取并保存文章文本。
摘要由CSDN通过智能技术生成