linkedin 爬虫

最新推荐文章于 2024-06-27 18:03:51 发布

jiekclek

最新推荐文章于 2024-06-27 18:03:51 发布

阅读量5.3k

点赞数 1

本文链接：https://blog.csdn.net/henielh/article/details/106898602

版权

本文详细介绍了LinkedIn网页爬虫的实现过程，包括使用selenium驱动Chrome登录、寻找网页元素的技巧，以及如何输入人名获取profileurl、下载简历和爬取经历、教育等信息。面对网页结构变化，作者分享了如何通过XPath和class定位元素，并讨论了不同的搜索人名方法和自动化下载简历的策略。

摘要由CSDN通过智能技术生成

linkedin网页爬虫难点:

网页进入：登录网页（个人账号登录）；API接口进入（需要进行一系列复杂且不懂的申请操作，且每次爬的数据量有限）；虚拟网址登入，用requests的Session维持登录状态（目前已不可行，https://www.linkedin.com/uas/login-submit）
爬虫难点：网页项目没有明确的#css可以爬，必须找到相应的class，且网页element处于更新中，这次爬了不代表下次能用相同的规则爬。

网页进入

用selenium驱动chrome： Rselenium package
我起初首先看的网址，对我有启蒙作用，然而有一些方法已经失效，aja渲染也没必要用，只能帮助进入，无法帮助爬虫，且在python环境下完成
 使用R软件的Rselenium包自动驱动；非常详细地告诉你R怎么配置chromedriver，需要用到java执行档
 更详细生动的python selenium的操作，selenium和Rselenium其实原理都相同，互通的。

#在cmd中执行： java -Dwebdriver.chrome.driver=D:\Chromedriver.exe -jar D:\selenium-server-standalone-3.141.59.jar
library(Rselenium)
remDr=remoteDriver(browserName='chrome')
#打开领英网页
remDr$open()
loginurl='https://www.linkedin.com/login?fromSignIn=true&trk=guest_homepage-basic_nav-header-signin'
remDr$navigate(loginurl)
# 用户名和密码；这里是通过代码输入了，实际上自己在监控网页上输入用户名密码即可，只要你不关闭chrome，就保持了cookie.

最低0.47元/天解锁文章

jiekclek

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
7
评论
linkedin 爬虫

linkedin网页爬虫难点:网页进入：登录网页（个人账号登录）；API接口进入（需要进行一系列复杂且不懂的申请操作，且每次爬的数据量有限）；虚拟网址登入，用requests的Session维持登录状态（目前已不可行，https://www.linkedin.com/uas/login-submit）爬虫难点：网页项目没有明确的#css可以爬，必须找到相应的class，且网页element处于更新中，这次爬了不代表下次能用相同的规则爬。网页进入用selenium驱动chrome： Rseleni
复制链接

扫一扫