Python网络爬虫-Scrapy框架基础应用

Scrapy是一款快速而强大的web爬虫框架。

1.安装

pip install scrapy
pip install pywin32
pip install wheel

Scrapy 常用于数据抓取,pywin32 用于开发 Windows 应用程序,

wheel 则用于改善 Python 包的安装体验。

2.创建项目

scrapy startproject +"项目名"

scrapy.cfg 包含了整个 Scrapy 项目的基本信息和配置。

items.py 定义了你想要从网页上抓取的数据的结构。

pipelines 负责处理抓取到的数据,并决定数据的最终去向

settings.py 设置各种参数,比如爬虫的爬取速度、并发请求的数量等

spiders 包含了所有的爬虫代码

3.配置修改

1.需要告诉搜索引擎该页面可以被爬取

2.配置对应网页的USER_AGENT

4. 创建爬虫文件.

scrapy genspider +爬虫文件名+爬取目标网址

得到py文件

 5.爬取豆瓣的示例代码:

import scrapy
from scrapydemo.items import ScrapydemoItem

class DoubanSpider(scrapy.Spider):
    name = "douban"
    allowed_domains = ["movie.douban.com"]
    start_urls = ["https://movie.douban.com"]

    def parse(self, response):
        movies = response.css('div[class="screening-bd"]')
        for movie in movies:
            img = movie.css("img::attr(src)").extract_first()
            title = movie.css("img::attr(alt)").extract_first()
            href = movie.css("a::attr(href)").extract_first()

            if img and title and href:
                item = ScrapydemoItem()
                item['img'] = img
                item['title'] = title
                item['href'] = href
                yield item

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值