【爬虫】浅析 selectorgadget 高效使用的方法

前言

最近在进行算法的实战,常需要一些网络数据,故而进行爬虫,相信玩过爬虫的朋友都知道,找nodes比较麻烦,尤其是一些复杂的前端页面.
目前大部分人用selectorgadget 工具比较多,但只是一个普通可下载的工具,搜索了半天都是要下载币才能下载,或者下载了文件提示:安装包无效。

详情

本文分享一个无需下载便可使用selectorgadget的方法,希望能帮到大家。

第一步:进入谷歌中文官网
点击这里–传送门

第二步:看到如下内容
在这里插入图片描述
在这里插入图片描述
第三步:
拖拽selectorgadget(拖拽不是单击) 至web收藏栏收藏即可.
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200326095323444.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MTYxMzA5NA==,size_16,color_FFFFFF,t_70以上基本步骤全部完成。

效果图如下:在这里插入图片描述

点击后,点击对应的页面即可出现node的path,从而进行获取,以R语言为例:

web =  read_html(str_c("https://www.csdn.net/",i), encoding="UTF-8" )
job  =  web%>% html_nodes(".clearfix,a") %>%html_text()
job = job[!is.na(job)]#将多余信息设置为NA并剔除
com_info = web%>%html_nodes(".company_name a")%>%html_text()   
info_1 = web%>% html_nodes(".p_bot .li_b_l")%>%html_text()       
info_2 = web%>% html_nodes(".industry")%>%html_text()           
intor  = web%>%html_nodes(".li_b_r")%>%html_text()      

通过以上方法即可获取对应信息,可解决非登陆校验的数据获取,数据获取后进一步处理即可。
需跳过登录验证的数据部分,等文章写完了再进一步分享。
在这里插入图片描述

题外话
希望本文有大家有帮助, 如有错误,欢迎指正。
转载请注明原文链接:
https://blog.csdn.net/weixin_41613094/article/details/105642740

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值