Python学习Scrapy百度爬虫项目的创建、启动

最新推荐文章于 2024-06-08 23:00:56 发布

冥想10分钟大师

最新推荐文章于 2024-06-08 23:00:56 发布

阅读量448

点赞数

分类专栏： Scrapy 文章标签： Python

本文链接：https://blog.csdn.net/qq_31235811/article/details/88841616

版权

Scrapy 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

安装

安装依赖
sudo apt-get install build-essential python3-dev libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev
安装
pip install scrapy

Scrapy 是一个基于 Twisted 的异步处理框架，是纯 Python 实现的爬虫框架，其架构清晰,可拓展性强

间的榈合程度低，可扩展性极强，可以灵活完成各种需求。

创建项目

进入要创建项目的目录Scrapy（这个是自己选择），输入命令创建项目

scrapy startproject Baidu

进入第一个Baidu目录，创建spider，spidername不能和项目名相同，域名限制为baidu.com只爬取此域名下网页

cd Baidu
scrapy genspider BaiduSpider baidu.com

还是在第一个Baidu目录，在项目目录下起动爬虫

scrapy crawl BaiduSpider

！！！要将机器人协议修改为False，ROBOTSTXT_OBEY = False

如何在Pycharm运行Scrapy，在Baidu目录下创建 main.py名字自己取，添加如下代码，运行main.py就行

#导包
from scrapy import cmdline
#输入命令
cmdline.execute('scrapy crawl BaiduSpider'.split())

在这里插入图片描述

简单测试一下

BaiduSpider.py

# -*- coding: utf-8 -*-
import scrapy
class BaiduspiderSpider(scrapy.Spider):
    name = 'BaiduSpider'
    allowed_domains = ['baidu.com']
    start_urls = ['http://baidu.com/']

    def parse(self, response):
        #重写pass方法
        with open('baidu.html','w',encoding='utf-8') as f:
            f.write(response.body.decode('utf-8'))

shell调试

#进入环境
conda activate Scrapy
#测试网站
scrapy shell 'www.baidu.com'

在这里插入图片描述
response <200>表示请求成功
response.body输出bytes格式网页内容
response.text输出str格式网页内容

在这里插入图片描述

在这里通过xpath、css筛选会直接把筛选结果显示出来。

在这里插入图片描述

冥想10分钟大师

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录