爬虫总结

之前一直没动手试过爬虫,最近需要,所以赶忙了解了一下。了解的过程种借鉴了很多别人的博客,开了很多窗口,为了关电脑,现在复盘一下。

首先,作为一个懒癌,我想到的是用一下现在市面上的爬虫软件,比如集搜客、火车头啥的。

然后去下载了一个集搜客,学习了好几个教学视频,基础的是怎么爬一个商品的标题、商铺、价钱之类的,高阶一点就是翻页、还有如何爬商品的详情页等。

但操作过程学的我头大,还有好多必须做的规定,我又经常忘记,所以纠结了一下之后放弃了,还是自己动手写个python爬虫吧。

所以,我觉得怕麻烦的人更适合自己写代码

网上有很多爬虫的教程,好多包也可以爬,我也没多想,就挑个看起来简洁能用的用吧

爬虫我用到了 requests、lxml中的etree包

这里放几个我参考的博客(侵删
python爬虫实践—纵横中文网免费小说爬取
这个写的很清晰,可以借鉴一下爬虫的框架

简单Python爬虫获取指定网页内容示例

怎么手写 xpath
这个可以教怎么写xpath

我感觉爬虫困难的地方在怎么写xpath,所以也去了解了一下xpath
XPath解析html及实例-使用xpath的爬虫
爬虫解析库:XPath

代码实现的过程中,也遇到了亿点问题,比如
xpath抓取的值有\r\n\t时,去掉的方法

Xpath如何爬取a标签中的href*(相对应的网址)?

另外,如果出现connectionError可以检查一下是否断网了,其它问题都可以百度找到答案吧

ip被禁了 估计 = =

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值