前言
最近在进行算法的实战,常需要一些网络数据,故而进行爬虫,相信玩过爬虫的朋友都知道,找nodes比较麻烦,尤其是一些复杂的前端页面.
目前大部分人用selectorgadget 工具比较多,但只是一个普通可下载的工具,搜索了半天都是要下载币才能下载,或者下载了文件提示:安装包无效。
详情
本文分享一个无需下载便可使用selectorgadget的方法,希望能帮到大家。
第一步:进入谷歌中文官网
点击这里–传送门
第二步:看到如下内容
第三步:
拖拽selectorgadget(拖拽不是单击) 至web收藏栏收藏即可.
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200326095323444.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MTYxMzA5NA==,size_16,color_FFFFFF,t_70以上基本步骤全部完成。
效果图如下:
点击后,点击对应的页面即可出现node的path,从而进行获取,以R语言为例:
web = read_html(str_c("https://www.csdn.net/",i), encoding="UTF-8" )
job = web%>% html_nodes(".clearfix,a") %>%html_text()
job = job[!is.na(job)]#将多余信息设置为NA并剔除
com_info = web%>%html_nodes(".company_name a")%>%html_text()
info_1 = web%>% html_nodes(".p_bot .li_b_l")%>%html_text()
info_2 = web%>% html_nodes(".industry")%>%html_text()
intor = web%>%html_nodes(".li_b_r")%>%html_text()
通过以上方法即可获取对应信息,可解决非登陆校验的数据获取,数据获取后进一步处理即可。
需跳过登录验证的数据部分,等文章写完了再进一步分享。
题外话
希望本文有大家有帮助, 如有错误,欢迎指正。
转载请注明原文链接:
https://blog.csdn.net/weixin_41613094/article/details/105642740