python3-爬虫 08 Ubuntu20.04安装scrapy 并进行简单测试

最新推荐文章于 2024-05-25 10:51:30 发布

今天我牙疼

最新推荐文章于 2024-05-25 10:51:30 发布

阅读量1.5k

点赞数

分类专栏：爬虫-Python3 文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_40924514/article/details/109773234

版权

爬虫-Python3 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

安装scrapy

直接使用pip进行安装
pip3 install scrapy

创建项目

创建一个蜘蛛：baiduSpider

也可以定义为自己喜欢的文件名

 scrapy startproject baiduSpider

进入项目目录，scrapy会自动创建一个新的子目录，与定义的文件名同名

 cd baiduSpider

进入scrapy创建的文件夹后会发现其中包含一些配置文件以及一个spiders文件夹，我们将在这个文件夹内编写爬虫代码

cd spiders
touch article.py

# 打开创建的article.py文件编写代码
# 注意类名、函数名以及参数
# 项目里每个蜘蛛的名称必须唯一

import scrapy

class ArticleSpider(scrapy.Spider):
	name='article'

	def start_requests(self):
		"""
		scrapy定义的程序入口 用于生成scrapy用来抓取网站的request对象
		"""

		urls = [
			'https://baike.baidu.com/item/Python',
			'https://baike.baidu.com/item/Scrapy',
			'https://baike.baidu.com/item/csdn'
			]
		headers = {
			'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) '
				'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
		}
		return [scrapy.Request(url=url, callback=self.parse, headers=headers) 
			for url in urls]

	def parse(self, response):
		"""
		由用户定义的回调函数，通过callback=self.parse给request传递对象
		"""
		url = response.url
		title = response.css('h1::text').extract_first()
		print('url:{}'.format(url))
		print('title: {}'.format(title))

# 关闭robot协议：
 	在scrapy创建的baiduSpider文件夹下打开setting文件，
	将 ROBOTSTXT_OBEY 的值设置为 False

运行scrapy

scrapy runspider article.py

运行截图

包含url 及title信息

包含以上信息即为运行成功

今天我牙疼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python3-爬虫 08 Ubuntu20.04安装scrapy 并进行简单测试

安装scrapy直接使用pip进行安装pip3 install scrapy创建项目创建一个蜘蛛：baiduSpider也可以定义为自己喜欢的文件名 scrapy startproject baiduSpider进入项目目录，scrapy会自动创建一个新的子目录，与定义的文件名同名 cd baiduSpider进入scrapy创建的文件夹后会发现其中包含一些配置文件以及一个spiders文件夹，我们将在这个文件夹内编写爬虫代码cd spiderstouch article.py
复制链接

扫一扫

专栏目录