爬取 goubanjia 网站的免费 ip 免费 proxy JavaScript + Python + selenium

url: http://www.goubanjia.com/

1. 分析页面:

在这里插入图片描述
根据结构,不难想象这是一个表格,如果通过页面去获取数据应该不难,但是通过检查发现,并不是想象中的那样(div, span, p层次不齐)
在这里插入图片描述
第一个没有多余的字符,好像可以直接获取,但是再看第二个
在这里插入图片描述
会发现,中间掺杂一些其他的标签,以及无用的信息,也许看到这里,新手这就犯难了,不要急,接下来继续.
我的解决方法是使用js,简单粗暴(你可尝试在控制台输入以下代码,可以直接打印出来)
通过css定位是表示 .ip

ip = document.querySelectorAll('.ip')

在这里插入图片描述
这个css查找返回一个数组(python 就当列表处理吧,但是这是js的对象),一共20行数据

获取第一个先:

ip[0]

在这里插入图片描述
那么如何获取字符串呢?
通过细心观察,有用的信息都是存储在div标签和span标签,p标签基本没用(display:none)
在这里插入图片描述
展开就是:

ip[0].querySelectorAll('div, span')

在这里插入图片描述
获取单个值的方法(用变量转换一下)

tag = ip[0].querySelectorAll('div, span')
tag[2].innerHTML

在这里插入图片描述
一个td标签里面的值的获取 (javascript箭头函数)

tag.forEach((item, index)=>console.log(item))

在这里插入图片描述
或者是直接获取到值(获取的数字的 左边的数字表示是重复打印)

tag.forEach((item
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值