Python爬虫实战(二) selenium切换iframe爬取知网论文

        原以为知网还挺好爬的,毕竟在八爪鱼里面都是免费的模板。没想到,爬的时候还真是坑点满满啊!

坑点一:

一开始想都没想,直接css_selector定位,发现数据居然是空的!后来想了一下可能是需要转iframe,试了一下,没想到还真是!如下图所示,数据都是在iframe下的。
在这里插入图片描述
需要先用switch_to.frame转一下

	driver.switch_to.frame('iframeResult')

注意:只要转一次就可以了,一开始以为翻页后需要重新转,后来想了想iframe应该只是一个固定框架,翻页只是里面的内容发生变化!

坑点二:

解决上述问题后,爬到第17页的时候,需要输验证码。而且每隔16页都要输一次,图片识别加进去太麻烦了,偷个懒还是让它睡个10秒,自己输入吧

坑点三:

没用开发者模式,大概到二十多页的时候,数据已经为空了!
在这里插入图片描述

全部代码:
from selenium import webdriver
import pandas as pd
from itertools import zip_longest
import time
import random
import os
os.chdir('C:/Users/dell/Desktop')
def crawler_paper():
    opt=webdriver.ChromeOptions()
    opt.add_experimental_option('excludeSwitches', ['enable-automation']) 
    driver=webdriver.Chrome(options=opt)
    driver.get('https://www.cnki.net/')
    time.sleep(2)
    search=driver.find_element_by_id('txt_SearchText')
    search.send_keys('大数据')
    submit=driver.find_element_by_class_name('search-btn')
    submit.click()
    time.sleep(3)
    df=[]
    driver.switch_to.frame('iframeResult')
    for page in range(1,50):
        try:
            driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
            paper_name=driver.find_elements_by_css_selector('a.fz14')
            author=driver.find_elements_by_css_selector('td.author_flag')
            source=driver.find_elements_by_css_selector('td.author_flag+td')
            datetime=driver.find_elements_by_css_selector('td.author_flag+td+td')
            database=driver.find_elements_by_css_selector('td.author_flag+td+td+td')
            download=driver.find_elements_by_css_selector('span.downloadCount')
            for k,v,m,n,q,w in zip_longest(paper_name,author,source,datetime,database,download,fillvalue=0):
                if w==0:
                    df.append([k.text,v.text,m.text,n.text,q.text,w])
                else:
                    df.append([k.text,v.text,m.text,n.text,q.text,w.text])
            print('第{}页爬取完毕'.format(page))
            driver.find_element_by_link_text('下一页').click()
            time.sleep(random.randint(2,5))
        except:
            print('未爬到数据')
            time.sleep(10)
    return df

def save_data(data:list):
    inf=pd.DataFrame(data,columns=['论文名','作者','来源','发表日期','数据库','下载次数'])
    inf.to_csv('paper_information.csv',index=False,encoding='gb18030')

if __name__=='__main__':
    data=crawler_paper()
    save_data(data)

最终爬取结果如下:
在这里插入图片描述

  • 3
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
### 回答1: Python可以使用爬虫技术来爬取知网上的PDF文件。以下是一种实现方式: 1. 导入相关的库:首先要导入所需的库,包括 requests、BeautifulSoup和os。 2. 获取页面链接:使用requests库向知网发送请求,获取包含PDF文件的页面的源代码。可以使用`requests.get()`方法来获取网页内容,并使用`response.text`来获取文本内容。 3. 解析页面:使用BeautifulSoup库来解析网页源代码,提取出PDF文件的链接。可以使用`BeautifulSoup()`方法将网页源代码转换成BeautifulSoup对象,然后使用`find_all()`方法查找所有的链接标签,过滤出PDF文件的链接。 4. 下载PDF文件:遍历上一步获得的PDF文件链接列表,使用requests库下载PDF文件。可以使用`requests.get()`方法向服务器发送请求,并使用`response.content`获取进制数据,最后将数据写入本地的PDF文件。 5. 保存PDF文件:使用os库中的方法来保存下载的PDF文件。可以使用`open()`方法打开一个文件,然后将进制数据写入文件中保存。 以上是使用Python爬取知网上PDF文件的简单流程。需要注意的是,为了遵守爬虫的道德规范,应该尊重知网的网站规则,并且避免过度频繁地爬取数据,以防止对网站造成负担。 ### 回答2: 要使用Python爬取知网PDF文件,可以按照以下步骤进行: 1. 导入所需的Python库,如requests、BeautifulSoup和urllib等。 2. 使用requests库发送GET请求获取想要爬取知网论文页面的源代码。 3. 使用BeautifulSoup库解析源代码,提取出论文的标题、作者、摘要等信息,并获取到下载PDF文件的链接。 4. 使用urllib库下载PDF文件。可以使用urlopen函数打开文件链接,并使用open方法将文件保存到本地。 以下是一个简单的示例代码: ```python import requests from bs4 import BeautifulSoup import urllib # 发送GET请求获取页面源代码 url = '知网论文页面链接' headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"} response = requests.get(url, headers=headers) source_code = response.text # 使用BeautifulSoup库解析源代码获取下载链接 soup = BeautifulSoup(source_code, 'lxml') pdf_link = soup.find('a', {'class': 'pdfDownloadIcon'})['href'] # 下载PDF文件 urllib.request.urlretrieve(pdf_link, '保存路径') ``` 请注意,以上示例代码中的"知网论文页面链接"需要替换成实际的知网论文页面链接,"保存路径"需要替换成希望保存PDF文件的本地路径。同时,该示例代码仅适用于获取单篇论文的PDF文件,如果需要批量爬取多篇论文的PDF文件,需要在代码中加入相应的循环处理逻辑。 ### 回答3: Python可以使用多种库和技术来爬取知网的PDF文献。 首先,我们可以使用requests库来向知网发送请求并获取响应。我们需要使用知网提供的搜索API来搜索我们需要的文献,并将搜索关键词作为参数传递给API。接下来,我们可以解析响应的JSON数据,提取出文献的URL和其他相关信息。 一旦我们获得了文献的URL,我们可以使用requests库再次发送请求来获取文献的内容。需要确保在请求的头部中添加Referer字段,以确保我们具有访问权限。 为了处理PDF文档,我们可以使用第三方库如pdfminer或PyPDF2来解析和提取其中的文本信息,或者直接将PDF保存到本地。 为了实现登录和获取权限,我们可能需要使用模拟登录技术,如使用selenium库来模拟真实浏览器环境。 除了上述库和技术外,我们还可以借助其他辅助库和工具来增加爬取效率和提升爬取结果的质量,如多线程或异步请求库,如aiohttp和asyncio。 需要注意的是,爬取知网的PDF文献需要遵守知网的使用规则和法律法规。同时,保护知识产权也是非常重要的,不能滥用爬虫技术。
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值