Scrapy是一款快速而强大的web爬虫框架。
1.安装
pip install scrapy
pip install pywin32
pip install wheel
Scrapy 常用于数据抓取,pywin32 用于开发 Windows 应用程序,
wheel 则用于改善 Python 包的安装体验。
2.创建项目
scrapy startproject +"项目名"
scrapy.cfg 包含了整个 Scrapy 项目的基本信息和配置。
items.py 定义了你想要从网页上抓取的数据的结构。
pipelines 负责处理抓取到的数据,并决定数据的最终去向
settings.py 设置各种参数,比如爬虫的爬取速度、并发请求的数量等
spiders 包含了所有的爬虫代码
3.配置修改
1.需要告诉搜索引擎该页面可以被爬取
2.配置对应网页的USER_AGENT
4. 创建爬虫文件.
scrapy genspider +爬虫文件名+爬取目标网址
得到py文件
5.爬取豆瓣的示例代码:
import scrapy
from scrapydemo.items import ScrapydemoItem
class DoubanSpider(scrapy.Spider):
name = "douban"
allowed_domains = ["movie.douban.com"]
start_urls = ["https://movie.douban.com"]
def parse(self, response):
movies = response.css('div[class="screening-bd"]')
for movie in movies:
img = movie.css("img::attr(src)").extract_first()
title = movie.css("img::attr(alt)").extract_first()
href = movie.css("a::attr(href)").extract_first()
if img and title and href:
item = ScrapydemoItem()
item['img'] = img
item['title'] = title
item['href'] = href
yield item