爬虫总结

cc_mlearning

于 2021-04-26 23:10:39 发布

阅读量151

点赞数

分类专栏： Tips 文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cc_mlearning/article/details/116176227

版权

Tips 专栏收录该内容

26 篇文章

订阅专栏

之前一直没动手试过爬虫，最近需要，所以赶忙了解了一下。了解的过程种借鉴了很多别人的博客，开了很多窗口，为了关电脑，现在复盘一下。

首先，作为一个懒癌，我想到的是用一下现在市面上的爬虫软件，比如集搜客、火车头啥的。

然后去下载了一个集搜客，学习了好几个教学视频，基础的是怎么爬一个商品的标题、商铺、价钱之类的，高阶一点就是翻页、还有如何爬商品的详情页等。

但操作过程学的我头大，还有好多必须做的规定，我又经常忘记，所以纠结了一下之后放弃了，还是自己动手写个python爬虫吧。

所以，我觉得怕麻烦的人更适合自己写代码

网上有很多爬虫的教程，好多包也可以爬，我也没多想，就挑个看起来简洁能用的用吧

爬虫我用到了 requests、lxml中的etree包

这里放几个我参考的博客（侵删）
python爬虫实践—纵横中文网免费小说爬取
这个写的很清晰，可以借鉴一下爬虫的框架

简单Python爬虫获取指定网页内容示例

怎么手写 xpath
这个可以教怎么写xpath

我感觉爬虫困难的地方在怎么写xpath，所以也去了解了一下xpath
XPath解析html及实例-使用xpath的爬虫
 爬虫解析库：XPath

代码实现的过程中，也遇到了亿点问题，比如
xpath抓取的值有\r\n\t时，去掉的方法

Xpath如何爬取a标签中的href*（相对应的网址）？

另外，如果出现connectionError可以检查一下是否断网了，其它问题都可以百度找到答案吧

ip被禁了估计 = =

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。