Python爬虫实践(十一):selenium+phantomjs+正则表达式爬取文章并保存

本文介绍了如何在Ubuntu环境下使用Python爬虫结合selenium和phantomjs抓取《三联生活周刊》中关于英国“脱欧”的文章内容。首先,安装wingide 5.0.1并进行破解,接着安装PhantomJS和selenium。通过观察页面源代码,使用正则表达式匹配文章段落。最后,定义工具类tool清除不需要的元素,成功获取并保存文章文本。
摘要由CSDN通过智能技术生成

爬取的是三联生活周刊的这篇文章:

英国"脱欧":蝴蝶的翅膀动了(url:点击打开链接

一、环境准备:

系统:Ubuntu

IDE:wingide

安装以及破解wingide可参考这篇文章:点击打开链接,需要注意的是,经过验证,这个破解的py脚本对最新的wingide 5.1破解失败,在官网下载wingide的时候,点击older version,安装5.0.X的版本,我安装的是5.0.1版本。

安装Phantom可以直接在这里下载,利用 tar 命令解压,之后将可执行文件放入系统路径,使用命令࿰

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值