Python学习Scrapy百度爬虫项目的创建、启动

安装

安装依赖
sudo apt-get install build-essential python3-dev libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev
安装
pip install scrapy

Scrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,可拓展性强

间的榈合程度低,可扩展性极强,可以灵活完成各种需求 。

创建项目

进入要创建项目的目录Scrapy(这个是自己选择),输入命令创建项目

scrapy startproject Baidu

进入第一个Baidu目录,创建spider,spidername不能和项目名相同,域名限制为baidu.com只爬取此域名下网页

cd Baidu
scrapy genspider BaiduSpider baidu.com

还是在第一个Baidu目录,在项目目录下起动爬虫

scrapy crawl BaiduSpider

!!!要将机器人协议修改为False,ROBOTSTXT_OBEY = False

如何在Pycharm运行Scrapy,在Baidu目录下创建 main.py名字自己取,添加如下代码,运行main.py就行

#导包
from scrapy import cmdline
#输入命令
cmdline.execute('scrapy crawl BaiduSpider'.split())

在这里插入图片描述

简单测试一下

BaiduSpider.py

# -*- coding: utf-8 -*-
import scrapy
class BaiduspiderSpider(scrapy.Spider):
    name = 'BaiduSpider'
    allowed_domains = ['baidu.com']
    start_urls = ['http://baidu.com/']

    def parse(self, response):
        #重写pass方法
        with open('baidu.html','w',encoding='utf-8') as f:
            f.write(response.body.decode('utf-8'))

shell调试

#进入环境
conda activate Scrapy
#测试网站
scrapy shell 'www.baidu.com'

在这里插入图片描述
response <200>表示请求成功
response.body输出bytes格式网页内容
response.text输出str格式网页内容

在这里插入图片描述

在这里通过xpath、css筛选会直接把筛选结果显示出来。

在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值