python3-爬虫 08 Ubuntu20.04安装scrapy 并进行简单测试

安装scrapy

直接使用pip进行安装
pip3 install scrapy

创建项目

创建一个蜘蛛:baiduSpider
也可以定义为自己喜欢的文件名
 scrapy startproject baiduSpider
进入项目目录,scrapy会自动创建一个新的子目录,与定义的文件名同名
 cd baiduSpider
进入scrapy创建的文件夹后会发现其中包含一些配置文件以及一个spiders文件夹,我们将在这个文件夹内编写爬虫代码
cd spiders
touch article.py

# 打开创建的article.py文件编写代码
# 注意类名、函数名以及参数
# 项目里每个蜘蛛的名称必须唯一
import scrapy

class ArticleSpider(scrapy.Spider):
	name='article'

	def start_requests(self):
		"""
		scrapy定义的程序入口 用于生成scrapy用来抓取网站的request对象
		"""

		urls = [
			'https://baike.baidu.com/item/Python',
			'https://baike.baidu.com/item/Scrapy',
			'https://baike.baidu.com/item/csdn'
			]
		headers = {
			'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) '
				'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
		}
		return [scrapy.Request(url=url, callback=self.parse, headers=headers) 
			for url in urls]

	def parse(self, response):
		"""
		由用户定义的回调函数,通过callback=self.parse给request传递对象
		"""
		url = response.url
		title = response.css('h1::text').extract_first()
		print('url:{}'.format(url))
		print('title: {}'.format(title))
# 关闭robot协议:
 	在scrapy创建的baiduSpider文件夹下打开setting文件,
	将 ROBOTSTXT_OBEY 的值设置为 False

运行scrapy

scrapy runspider article.py

运行截图

包含url 及title信息

包含以上信息即为运行成功

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值