从头学习爬虫(三十三)实战篇----那些年的坑

本文主要介绍下一直以来在爬虫中的那些坑

一 jsoup、html格式

上次虎扑出现的坑

请求里面


我的xpath写div[@class=piclist3']/table/tr/td/a 居然拿不到

而我用div[@class=piclist3']/table/tbody/tr/td/a  居然拿到了

浏览器里面


让我们觉得第三个怎么说的不对,然而我发现请求刚拿到的时候是没有这个tbody

那么这个是哪里来的。

我们代码实战下


很明显经过html ,自动按html 标准格式化了多了很多标签,实战中也要考虑到这个(html 的类是webmagic那个)

因为我在python里面同样写的代码

div[@class=piclist3']/table/tr/td/a 是可以拿得到

这又是为什么

我后来看了下 我用的etree 以树的结构去解析而不加html标准需要的标签所以可以

二 请求参数

Cookie、token、jsessionid注意变化

还有些不要header不要加  如Content-Length

三 浏览器和请求

再三提示浏览器不等于请求

还是拿老例子网易云音乐

浏览器地址http://music.163.com/#/playlist?id=2203927235

请求地址   http://music.163.com/playlist?id=2203927235



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值