python全站资源_python全站试爬虫

第一次写,是直接写还是先走程序。

1、都是些废话

最近失业了,晚上睡不着,实在没事干。所以来练习下爬虫技术,第一次创作,写的不好,勿喷。

2、正式开始

想要练习下全站试爬虫,找了几个网站,觉得还是从最简单的开始,因为本人喜欢看小说,所以就以全书网为例。根据自己实践证明,全书网没有做任何反爬技术(适用于初学者)。

3、分析网站并编写代码

3.1、获取最大分类

网址为:http://www.quanshuwang.com/ (百度搜索全书网,打开第一个),首先分析网站,个人经验,以类目区分,很明显可以发现它的第一级类目(最大分类)

033133_j0AY_3850783.jpg

所以,第一步拿到它的类目信息(链接或者ID),右键查看网页源代码,可以清楚的看到,它的分类全部放在源码里面。通过查找发现,ul表现后面class值为唯一值,直接利用xpath,一步到位

html.xpath('//ul[@class="channel-nav-list"]/li/a/@href')

033540_IAVq_3850783.jpg

到此,一级类目已经拿到(第一部分代码已经完成)。

3.2、获取页码链接

拿到分类链接不要着急,喝杯茶,休息一下。通过这些链接发现,这些链接都是每个分类下的第一页的,所以要拿到它最大页码,做个循环拿到所有页码链接。先打开第一页链接,通过源码发现它的页码放在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值