之前一直没动手试过爬虫,最近需要,所以赶忙了解了一下。了解的过程种借鉴了很多别人的博客,开了很多窗口,为了关电脑,现在复盘一下。
首先,作为一个懒癌,我想到的是用一下现在市面上的爬虫软件,比如集搜客、火车头啥的。
然后去下载了一个集搜客,学习了好几个教学视频,基础的是怎么爬一个商品的标题、商铺、价钱之类的,高阶一点就是翻页、还有如何爬商品的详情页等。
但操作过程学的我头大,还有好多必须做的规定,我又经常忘记,所以纠结了一下之后放弃了,还是自己动手写个python爬虫吧。
所以,我觉得怕麻烦的人更适合自己写代码
网上有很多爬虫的教程,好多包也可以爬,我也没多想,就挑个看起来简洁能用的用吧
爬虫我用到了 requests、lxml中的etree包
这里放几个我参考的博客(侵删)
python爬虫实践—纵横中文网免费小说爬取
这个写的很清晰,可以借鉴一下爬虫的框架
怎么手写 xpath
这个可以教怎么写xpath
我感觉爬虫困难的地方在怎么写xpath,所以也去了解了一下xpath
XPath解析html及实例-使用xpath的爬虫
爬虫解析库:XPath
代码实现的过程中,也遇到了亿点问题,比如
xpath抓取的值有\r\n\t时,去掉的方法
另外,如果出现connectionError可以检查一下是否断网了,其它问题都可以百度找到答案吧
ip被禁了 估计 = =