使用selenium爬取小说以及一些注意事项和坑

使用selenium爬取小说

说明:这个网站也可以使用静态方法访问,动态只是练手

目标,使用selenium爬取下面网站中的小说

http://www.xbiquge.la/29/29056/13991590.html?tdsourcetag=s_pctim_aiomsg

的一个小说,并下载到本地磁盘

一,分析网站
  • 1,打开网站,查看一篇文章。获取下一章链接,内容,以及章节名称。

    在这里插入图片描述

  • 2, 分别使用selenium的不同选择方式,进行定位,(当然使用xpath最为简单)

  • 3,xpath的一个小技巧(快速确定路径,最好使用以chrome为内核的浏览器)

在这里插入图片描述

二,开始爬取
  • 代码:

    from selenium import webdriver
    import time
    from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
    
    
    def get_content(url):
        # 使用selenium动态解析网页
        binary = FirefoxBinary(r"E:\FireFox\firefox.exe") # 浏览器位置
        driverPath = r"D:\PycharmProject\geckodriver-v0.26.0-win64\geckodriver.exe" # 驱动位置
        # 加载驱动和浏览器
        driver = webdriver.Firefox(executable_path=driverPath, firefox_binary=binary)
        driver.find_elements_by_link_text('下一章')
        driver.get(url=url)
        for i in range(0, 20):
            # 爬取20章
            # 获取每一章名字(使用class选择器)
            name = driver.find_element_by_css_selector('div.bookname').find_element_by_tag_name('h1').text
            # 获取内容(使用id选择器)
            content = driver.find_element_by_id(id_='content')
            text = content.text
            book = {
                'name': name,
                'text': text,
            }
            save_file(book=book)
            # 获取下一页按钮,(使用xpath语法),使用浏览器检查元素
            next_page = driver.find_element_by_xpath('//*[@id="wrapper"]/div[4]/div/div[2]/div[1]/a[4]')
            link = next_page.get_attribute('href')
            driver.get(link)
            time.sleep(1.5)
    
    
    def save_file(book):
        # 保存章节
        text = book['text']
        name = book['name']
        text = text.splitlines()[:-2] # 因为最后两行是广告,去除
        with open('file2/'+name, "w", encoding="utf-8") as f:
            for i in text:
                if i == '':
                    f.write('\n')
                else:
                    f.write(i)
            print(name+"保存成功!!!!")
    
    
    if __name__ == '__main__':
        url = r"http://www.xbiquge.la/29/29056/13991590.html"
        get_content(url=url)
    
    
    
  • 结果:

在这里插入图片描述

三,注意事项以及selenium的一些坑
  • 1,出现WebDriverException,是因为selenium新版要手动加载浏览器驱动,而驱动下载被墙。下面给出驱动百度网盘下载地址

  • https://pan.baidu.com/s/1yEc1e15HE9r–2oNAOue4A提取码:t4s1

  • 2,如果浏览器没有在注册表中注册,webdriver要手动指定浏览器位置

  • 3,使用find_element_by_link_text获取包含指定文本的标签,之前测试过a标签,但是没有get_attribute()方法(尽量使用xpath或者id,class选择器)

  • 4,跳转页面时,如果时a标签链接的,是不能使用click()方法进行跳转的,必须获取a标签里面的链接,然后使用dirver.get()进行跳转

  • 5,爬虫爬取时要尽量隔一定的时间进行请求,一方面为了不会使目标服务器增加负担,另一方面也是为了使网站反爬虫发现,并且利于webdriver加载网页。

  • 6,pycharm只会部分显示print输出,如果是有大段输出,会除去一部分,往往这样会造成爬取出的结果显示不全,会让人以为爬虫出错。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
### 回答1: Python爬虫中可以使用Selenium库来爬取网页信息。Selenium可以模拟浏览器行为,能够爬取JavaScript渲染后的网页信息。使用Selenium爬取网页时,需要配合浏览器驱动(如ChromeDriver、FirefoxDriver)使用。 ### 回答2: Python是一种高级编程语言,吸引了大量编程人员和开发者使用Python进行Web开发、数据分析、机器学习和人工智能等领域的开发。爬虫技术正是其中的一项重要技术,用python编写爬虫程序通常更加便捷和灵活。而selenium是Python中主要的爬虫库之一,用于爬取动态Web页面,可以模拟用户在浏览器中的行为,从而获取大量数据。 使用selenium爬取信息可以分为以下几个步骤: 1.安装和导入selenium和webdriver: 首先需要安装适合的版本的selenium包,并导入selenium和webdriver模块: ```python from selenium import webdriver ``` 2.配置浏览器驱动: Selenium需要浏览器驱动(如Chrome,Firefox等)来与其进行交互,需要配置如下: ```python driver = webdriver.Chrome() ``` 其中,Chrome()表示使用Chrome浏览器驱动,如果使用Firefox,则需要改为Firefox()。 3.访问网页: 使用get()函数可以访问指定的网址: ```python driver.get("https://www.baidu.com/") ``` 4.查找元素: 使用selenium的查找元素功能,可以根据元素的ID、name、class、tag等属性进行查找: ```python element = driver.find_element_by_id("kw") # 根据ID查找 element = driver.find_element_by_name("wd") # 根据name查找 element = driver.find_element_by_class_name("s_ipt") # 根据class查找 element = driver.find_element_by_tag_name("input") # 根据tag查找 ``` 5.模拟用户输入/点击: 使用send_keys()函数模拟用户在搜索框中输入关键字,使用click()函数模拟用户在搜索按钮上点击: ```python element.send_keys("Python") element.click() ``` 6.解析数据: 使用webdriver的page_source属性可以获取网页的源代码,然后使用正则表达式或BeautifulSoup库等解析数据。 以上就是使用selenium进行爬虫的主要步骤。实际应用中,需要根据不同的网站和需要爬取的数据进行具体的配置和调整。在使用selenium过程中,需要了解一些常见的使用技巧和注意事项,例如模拟等待时间,处理弹窗、验证码等。同时,也需要遵循爬虫的法律和道德规范,不得进行非法、滥用等行为。 ### 回答3: selenium是一种自动化测试工具,它可以模拟浏览器行为,实现自动化操作。在Python爬虫中,selenium也可以用来爬取需要模拟人工操作的网站数据。 使用selenium可以实现以下操作: 1.自动模拟浏览器打开网页,获取网页源码。 2.模拟用户操作,如点击按钮、填写文本框、下拉选择框等。 3.通过获取网页源码进行数据解析。 基本流程比较简单,首先需要准备好selenium的环境,这需要下载对应的webdriver,这里我使用Chrome浏览器,并且下载了对应版本的chromedriver。 然后通过selenium启动浏览器,在浏览器中进行模拟操作,最后获取网页源码进行数据解析。 具体实现可以参考以下代码: ```python from selenium import webdriver from bs4 import BeautifulSoup # 创建一个Chrome浏览器实例 browser = webdriver.Chrome() # 访问目标网页 browser.get('https://www.example.com') # 模拟点击按钮,等待加载完成 button = browser.find_element_by_xpath('//button[@class="btn"]') button.click() browser.implicitly_wait(5) # 获取网页源码 html = browser.page_source soup = BeautifulSoup(html, 'html.parser') data = soup.find_all('div', class_='data') # 处理数据 for item in data: # do something # 关闭浏览器 browser.quit() ``` 总体来说,selenium是一个强大的爬虫工具,可以应对大部分需要模拟人工操作的场景,但也存在一些缺点,比如速度慢、占用资源高等。因此在具体应用中需要根据实际情况进行选择。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值