这段时间正在看爬虫框架-pyspider,觉得这种网站用框架还是很方便的,所以今天就给大家带来这篇---起点中文网小说爬取。可视化我们放到下一集。
加vx:tanzhouyiwan或qq群813622576和大家免费分享Python学习资料哦!
安装使用
安装和基本使用请查看pyspider中文文档,我们这篇主要不是介绍pyspider哦。Mac安装的过程中出现了一些问题,请看Mac安装pycurl失败,装好以后使用pyspider all启动。然后打开浏览器输入:http://localhost:5000/
创建以后,我们就开始分析并编写起点爬虫了。
爬虫编写
打开起点中文网(https://www.qidian.com/),选择全部作品并按照字数排序
右键检查元素,因为是静态网页,所以我们就直接解析网页元素就行了,可以使用BeautifulSoup、PyQuery、xpath或者正在表达式。我习惯用xpath,所以就采这个坑了。
Chrome可自动生成xpath