网络爬虫scrapy初探

db_csl_2047

已于 2023-12-21 14:05:23 修改

阅读量1.9k

点赞数 21

文章标签：爬虫 scrapy

于 2023-12-14 10:11:23 首次发布

本文链接：https://blog.csdn.net/2203_75536179/article/details/134988198

版权

网络爬虫（web crawler）是一种通过自动化程序来浏览互联网并收集信息的技术。它可以在网页上自动获取数据，并将其存储或分析。网络爬虫在搜索引擎、数据挖掘、市场分析和其他领域中都有广泛的应用。Scrapy是一个基于Python的开源网络爬虫框架，它提供了一种快速、灵活和强大的方式来构建爬虫程序。

Scrapy框架由一个高性能的下载器、一个广泛的中间件和过滤器、一个强大的解析器、一个灵活的数据导出和存储引擎、一个分布式任务调度器和一个基于XML的网站地图生成器组成。它的设计使得用户可以很容易地编写爬虫程序，而无需关心底层的网络通信和HTML解析。

Scrapy的核心是它的爬虫引擎，它负责调度和协调整个爬虫流程。用户可以通过编写Spider类来定义爬虫的行为，包括如何获取和解析网页、如何处理数据以及如何跟踪链接。Spider类可以使用XPath、CSS选择器、正则表达式等方式来定位和提取网页中的信息。此外，Scrapy还提供了一些内置的中间件和过滤器，用于处理HTTP请求和响应，例如重定向、代理、用户代理等。

Scrapy还提供了一套灵活的数据导出和存储引擎，用户可以将爬取到的数据导出到多种格式，如JSON、CSV、XML等，也可以直接存储到数据库中。此外，Scrapy还支持分布式任务调度，用户可以通过配置分布式任务队列，实现多台机器上的爬虫并发执行。另外，Scrapy还提供了一个基于XML的网站地图生成器，用于生成网站地图，提高搜索引擎对网站的收录效率。

使用Scrapy编写爬虫程序通常需要以下几个步骤。首先，用户需要定义一个Spider类，继承自scrapy.Spider，并实现start_requests和parse方法。start_requests方法用于生成初始的请求，而parse方法用于处理响应并提取数据。然后，用户需要配置爬虫的调度和中间件，包括设置请求的头部、处理重定向、设置代理等。最后，用户可以使用pipelines来定义数据的导出和存储方式。

虽然Scrapy提供了极大的灵活性和强大的功能，但是也有一些不足之处。首先，Scrapy的学习曲线相对较陡，对于初学者来说可能需要一些时间来掌握其使用方法。其次，Scrapy在一些特殊情况下可能会遇到性能瓶颈，需要用户根据具体情况进行优化。另外，Scrapy的文档相对较少，用户可能需要通过查看源码或参考第三方教程来解决问题。

当使用Scrapy构建爬虫程序时，有一些最佳实践和注意事项可以帮助用户获得最佳的效果。首先，用户应该遵循网站的robots.txt文件，以避免对网站的不必要访问和爬取。其次，用户应该尽量避免频繁的访问同一个网站，以免对网站的服务器造成过大的压力。此外，用户还应该注意遵守网站的使用条款和隐私政策，以确保爬取行为的合法性和合规性。

在编写爬虫程序时，用户还需要考虑一些常见的问题和挑战。例如，网页结构的变化可能会导致爬虫程序的解析失败，用户需要定期检查和更新爬虫程序，以适应网页结构的变化。另外，网站可能会采取一些反爬虫的策略，如IP封锁、验证码、动态内容等，用户需要根据情况来实施相应的反反爬虫策略。

在实际应用中，Scrapy可以用于各种不同的场景和任务。例如，用户可以使用Scrapy来构建一个定期抓取新闻、商品信息或社交媒体数据的爬虫程序，以进行数据分析和挖掘。另外，用户还可以使用Scrapy来构建一个网络监控和抓取系统，用于监测特定网站的变化和更新。此外，Scrapy还可以用于构建一个数据采集和整合平台，用于从多个来源获取数据并进行整合和分析。

首先，确保已安装Python和pip，然后可以使用以下命令安装Scrapy：

pip install scrapy

创建一个新的Scrapy项目：

scrapy startproject myproject
cd myproject

在Scrapy项目中，spider是用于定义如何爬取网站内容的类。下面是一个简单的示例，演示如何使用Scrapy创建一个爬虫来获取网页的标题和链接。

首先，创建一个名为example_spider的spider：

scrapy genspider example example.com

编辑example.py文件，将其内容修改为如下所示：

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example.com']
    start_urls = ['http://www.example.com']

    def parse(self, response):
        for link in response.css('a::attr(href)').extract():
            yield {
                'title': response.css('title::text').extract_first(),
                'link': response.urljoin(link)
            }

在上面的示例中，我们创建了一个名为ExampleSpider的Spider类。在parse方法中，我们使用CSS选择器来提取网页中的链接和标题信息，并使用yield语句将提取到的数据逐条返回。

接下来，我们可以运行这个spider来爬取网页，并将结果保存到一个文件中：

scrapy crawl example -o output.json

运行上述命令后，Scrapy将会发送HTTP请求获取网页内容，并调用parse方法进行页面解析和数据提取。最后，爬取到的数据将会保存到output.json文件中。

通过上述代码示例，我们初步探索了如何使用Scrapy框架创建一个简单的爬虫程序。Scrapy提供了强大的功能和灵活的扩展机制，使得用户可以轻松地构建和管理复杂的爬虫系统，用于抓取和分析互联网上的数据。


from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()

2. 打开PDF下载网站

在这一步中，我们需要打开PDF下载网站，并等待页面完全加载。使用Selenium库中的WebDriverWait函数可以等待页面加载。

driver.get('https://pdfpdf.com/pdf-to-word-converter/')
wait = WebDriverWait(driver, 10)
wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.file-upload')))

3. 上传PDF文件

在这一步中，我们需要使用Selenium库中的send_keys函数向网站上传PDF文件。

input_file = driver.find_element_by_css_selector('.file-upload')
input_file.send_keys('/path/to/file')

4. 等待网站处理文件并下载

在这一步中，我们需要等待网站处理我们上传的PDF文件。我们可以使用Selenium库中的WebDriverWait函数来等待网站开始下载PDF文件。

wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, 'button.btn'))).click()
wait.until(EC.url_contains('pdf-to-word-converter-download'))

现在，我们已经成功地使用Python爬虫pdfpdf和Selenium库来获取PDF文件。这种技术简单而有效，可以帮助我们免费获取我们需要的PDF文件。

在进行网络爬虫开发时，遵守一些网络爬虫规范是非常重要的，这可以帮助确保爬虫程序的合法性，有效性和可持续性。以下是一些常见的网络爬虫规范：

遵守robots.txt文件：robots.txt文件是网站所有者用来指示搜索引擎和网络爬虫哪些页面可以爬取的标准。网络爬虫程序应该尊重robots.txt文件中的规则，避免爬取被禁止的页面。
设置合理的爬取速率：爬虫程序应该设置合理的爬取速率，避免对目标网站的服务器造成过大的压力。通过设置合理的爬取间隔，可以避免对目标网站的影响，并降低被封 IP 的风险。
遵守网站的使用条款和隐私政策：在进行爬取操作时，爬虫程序应该遵守目标网站的使用条款和隐私政策，避免违反法律法规或侵犯他人的权益。
避免频繁爬取相同页面：频繁地爬取相同页面可能会对网站服务器造成负担，爬虫程序应该避免过于频繁地爬取相同页面，遵循合理的爬取策略。
处理动态内容和反爬策略：许多网站采取了一些反爬虫的技术手段，如动态内容、验证码、IP封锁等。爬虫程序应该相应地处理这些反爬措施，并遵守对动态内容的处理规则。
确保数据的合法性和准确性：爬虫程序应该确保爬取到的数据是合法的，并且准确地反映了目标网站的内容。应该避免爬取错误的或过时的数据。
尊重隐私和版权：在爬取过程中，应该尊重个人隐私和版权，避免爬取敏感的个人信息和受版权保护的内容。
定期监控和更新：爬虫程序应该定期监控目标网站的变化，并根据需要更新爬取策略和规则，确保爬取的数据始终保持准确和有效。

遵循这些网络爬虫规范可以帮助确保您的爬虫程序合法、高效、可靠，并且能够与目标网站和数据所有者保持良好的关系

一、爬虫是违法的么
1、爬虫是否违法需要根据以下情况判断：
（1）爬虫本身不违法；
（2）如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息，并将之用于非法途径的，则肯定构成非法获取公民个人信息的违法行为。
2、法律依据：《中华人民共和国民法典》第一千零三十二条
自然人享有隐私权。任何组织或者个人不得以刺探、侵扰、泄露、公开等方式侵害他人的隐私权。
隐私是自然人的私人生活安宁和不愿为他人知晓的私密空间、私密活动、私密信息。
第一千零三十三条
除法律另有规定或者权利人明确同意外，任何组织或者个人不得实施下列行为：
（一）以电话、短信、即时通讯工具、电子邮件、传单等方式侵扰他人的私人生活安宁；
（二）进入、拍摄、窥视他人的住宅、宾馆房间等私密空间；
（三）拍摄、窥视、窃听、公开他人的私密活动；
（四）拍摄、窥视他人身体的私密部位；
（五）处理他人的私密信息；
（六）以其他方式侵害他人的隐私权。
二、非法获取公民个人信息要怎么处罚
非法获取公民个人信息的处罚措施如下：
1、向他人出售或者提供公民个人信息，情节严重的，处三年以下有期徒刑或者拘役，并处或者单处罚金。情节特别严重的，处三年以上七年以下有期徒刑，并处罚金。
2、将在履行职责或者提供服务过程中获得的公民个人信息，出售或者提供给他人的，依照前款的规定从重处罚。
3、窃取或者以其他方法非法获取公民个人信息的，依照第一款的规定处罚。