【爬虫】浅析 selectorgadget 高效使用的方法

看海的四叔

已于 2022-12-08 17:40:57 修改

阅读量4k

点赞数 1

分类专栏： R语言文章标签：爬虫 r语言数据库

于 2020-04-20 19:39:09 首次发布

本文链接：https://blog.csdn.net/weixin_41613094/article/details/105642740

版权

R语言专栏收录该内容

8 篇文章

订阅专栏

前言

最近在进行算法的实战，常需要一些网络数据，故而进行爬虫，相信玩过爬虫的朋友都知道，找nodes比较麻烦，尤其是一些复杂的前端页面.
目前大部分人用selectorgadget 工具比较多，但只是一个普通可下载的工具，搜索了半天都是要下载币才能下载，或者下载了文件提示：安装包无效。

详情

本文分享一个无需下载便可使用selectorgadget的方法，希望能帮到大家。

第一步：进入谷歌中文官网
点击这里–传送门

第二步：看到如下内容

第三步：
拖拽selectorgadget(拖拽不是单击) 至web收藏栏收藏即可.
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200326095323444.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MTYxMzA5NA==,size_16,color_FFFFFF,t_70以上基本步骤全部完成。

效果图如下：在这里插入图片描述

点击后，点击对应的页面即可出现node的path，从而进行获取，以R语言为例：

web =  read_html(str_c("https://www.csdn.net/",i), encoding="UTF-8" )
job  =  web%>% html_nodes(".clearfix,a") %>%html_text()
job = job[!is.na(job)]#将多余信息设置为NA并剔除
com_info = web%>%html_nodes(".company_name a")%>%html_text()   
info_1 = web%>% html_nodes(".p_bot .li_b_l")%>%html_text()       
info_2 = web%>% html_nodes(".industry")%>%html_text()           
intor  = web%>%html_nodes(".li_b_r")%>%html_text()

通过以上方法即可获取对应信息，可解决非登陆校验的数据获取，数据获取后进一步处理即可。
需跳过登录验证的数据部分，等文章写完了再进一步分享。
在这里插入图片描述