2021山东大学创新项目实训06

对其他的网站的爬取的实现

一、万方https://s.wanfangdata.com.cn/

(1)修改

爬虫的逻辑框架不需要做大量修改,只需要对针对的页面元素的位置进行确定

(2)存在的问题

万方的论文标题跳转上与知网空间不同,知网空间的反爬力度不是很大,基本上存在的所需的元素都是在< a >标签中,通过获得其.text属性或是get_attribute()来获取,但是在万方中对其中的内容进行了处理。
首先,万方的标题中不会包含跳转的链接和href属性,同时在url上也是将对应的搜索关键词进行加密后显示,由于无法确定是通过MD5或是base64亦或是其他的加密方式,因此无法直接对明文进行解密

(3)解决方法

一篇论文可以通过论文标题+作者唯一确定,因此通过构造一个搜索界面的url来返回一个只包含该文章的搜索结果页面解决文章id和url加密的问题

二、维普http://qikan.cqvip.com/

(1)修改

在单页爬取方面,只需要重新定位页面元素即可

(2)存在的问题

维普对selenium有针对的反爬机制

(3)解决方法

首先,观察到如果在浏览器中调出控制台,如果window.navigator.webdriver为False,则代表浏览器认为这不是selenium中的webdriver打开的浏览器,查询文档后知道可以通过 CDP来解决 在每个页面刚加载的时候执行 JavaScript 代码,执行的 CDP 方法叫作 Page.addScriptToEvaluateOnNewDocument来隐藏该属性
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值