本文主要介绍下一直以来在爬虫中的那些坑
一 jsoup、html格式
上次虎扑出现的坑
请求里面
我的xpath写div[@class=piclist3']/table/tr/td/a 居然拿不到
而我用div[@class=piclist3']/table/tbody/tr/td/a 居然拿到了
浏览器里面
让我们觉得第三个怎么说的不对,然而我发现请求刚拿到的时候是没有这个tbody
那么这个是哪里来的。
我们代码实战下
很明显经过html ,自动按html 标准格式化了多了很多标签,实战中也要考虑到这个(html 的类是webmagic那个)。
因为我在python里面同样写的代码
div[@class=piclist3']/table/tr/td/a 是可以拿得到
这又是为什么
我后来看了下 我用的etree 以树的结构去解析而不加html标准需要的标签所以可以
二 请求参数
Cookie、token、jsessionid注意变化
还有些不要header不要加 如Content-Length
三 浏览器和请求
再三提示浏览器不等于请求
还是拿老例子网易云音乐
浏览器地址http://music.163.com/#/playlist?id=2203927235
请求地址 http://music.163.com/playlist?id=2203927235