Python爬虫——scrapy_基本使用

错过人间飞鸿

已于 2023-08-14 21:40:42 修改

阅读量1.1k

点赞数

分类专栏： Python爬虫文章标签： python 爬虫 scrapy

于 2023-08-14 21:35:55 首次发布

本文链接：https://blog.csdn.net/m0_63757342/article/details/132285403

版权

Python爬虫专栏收录该内容

35 篇文章 1 订阅

订阅专栏

安装scrapy

pip install scrapy

创建scrapy项目，需要在终端里创建
注意：项目的名字开头不能是数字，也不能包含中文

scrapy startproject 项目名称
示例：
scrapy startproject scra_baidu_36

创建好后的文件
在这里插入图片描述
3. 创建爬虫文件：
要在spider文件里面创建爬虫文件
先在终端中cd到spider文件里
创建爬虫文件

scrapy genspider 爬虫文件名 要爬取的网页
示例：
scrapy genspider baidu http://www.baiud.com

创建的爬虫文件内容：
在这里插入图片描述
name 爬虫的名字，用于运行爬虫的时候使用的值
allowed_domains 允许访问的域名
start_urls 起始url地址，指的是第一次要访问的域名
parse 是执行了start_urls之后执行的方法，方法中的response就是返回的那个对象

运行爬虫文件
写一个print()

在终端输入

scrapy crawl 爬虫的名字
示例：
scrapy crawl baidu

但是运行完并没有给我们返回任何数据
在这里插入图片描述
这是因为有robots协议
解决办法：只需要在settings.py文件里把 ROBOTSTXT_OBEY = True 给注释掉就可以了(或者把True改成False也可以)

然后再重新运行一遍就可以获取到数据了

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

错过人间飞鸿

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫——scrapy_基本使用

scrapy_基本使用
复制链接

扫一扫

专栏目录

Python笔记——scrapy爬虫框架

01-06

— — python使用的最广泛的爬虫框架。 2. 创建项目：终端cmd下创建输入命令：scrapy startproject [项目名qsbk] 生成目录结构： 1、scrapy.cfg:项目配置文件 2、items.py :定义需要爬去的字段 3、middlewares.py：...

Python之scrapy爬虫文件

11-29

走进Scrapy爬虫——浅谈Python爬虫》这个文件。此文件可能从基础的Python爬虫概念入手，介绍为什么选择Scrapy作为爬虫工具，以及Python在爬虫领域的优势。可能会涵盖爬虫的基本工作流程，如请求网页、解析HTML、提取...

参与评论您还未登录，请先登录后发表或查看评论

python爬虫之scrapy框架（csdn）————程序.pdf

12-03

Python爬虫之Scrapy框架 Scrapy是一个基于Python的爬虫框架，具有高效、灵活、可扩展等特点。下面将逐步介绍Scrapy框架的安装、配置、使用及其核心组件。 1. 安装Scrapy框架首先需要在PyCharm下安装Scrapy函数库...

【Python】pandas：排序、重复值、缺省值处理、合并、分组

yannan20190313的博客

07-30

863

【Python】pandas：排序（sort_index,sort_values,nsmallest,nlargest）、重复值（duplicated,drop_duplicates,value_counts,nunique）、缺省值处理（isna,isnull,notna,notnull,fillna,dropna,replace）、合并（join,merge,append,concat）、分组（groupby）

快醒醒，别睡了!...讲《数据分析pandas库》了—/—＜4＞

qq_64603703的博客

07-27

1003

详细解说数据分析pandas库中的常用方法

全网最详细Gradio教程系列5——Gradio Client: python

shao918516的博客

07-26

1100

程序部署完成后，如何将Gradio App作为API访问使用呢，这就用到Gradio Client。本章讲解Gradio Client的三种使用方式：python、javascript和curl，受字数限制，所以分三篇博客发布。使用Gradio Python Client非常易于将Gradio应用程序作为API使用，本节讲述gradio_client安装、如何连接Gradio应用程序、查看可用API及其使用方式、job及session等用法。通过Gradio Python Cli

Chapter 18 Python异常

2302_80253507的博客

07-28

1235

在Python中，异常是一种特定的对象，能够在程序运行过程中被抛出和处理。有效地管理异常不仅可以增强程序的稳定性，还可以提高用户体验，使程序能够优雅地处理错误情况。本章详细讲解了异常的基本概念以及如何捕获和处理异常。

loguru日志模块：简化Python自动化测试的日志管理！

07-29

767

日志是软件开发中的关键组成部分，为开发和测试人员提供了调试和监控应用程序的重要手段。loguru 是一个第三方的 Python 日志库，以其简洁的 API 和自动化的功能脱颖而出。本文将探讨为什么项目中需要日志，loguru 为何受到青睐，以及如何封装和在接口自动化测试项目中使用 loguru，同时结合 Allure 生成丰富的测试报告。

Python面试题：如何使用WebSocket实现实时Web应用

最新发布

bigorsmallorlarge的专栏

07-30

316

通过上述步骤，你可以使用 Django Channels 和 WebSocket 创建一个简单的实时 Web 应用。Django Channels 提供了强大的功能，使得在 Django 中实现实时功能变得更加容易。你可以在此基础上扩展，添加更多功能和复杂的逻辑。

安卓手机部署大模型实战

奇舞周刊

07-25

1167

本文作者系360奇舞团前端开发工程师前言自ChatGPT发布以来，大语言模型（Large language model, LLM)就成了AI乃至整个计算机科学的话题中心。学术界，工业界围绕大语言模型本身及其应用展开了广泛的讨论，大量的新的实践层出不穷。由于LLM对计算资源的需求极大，有能力部署大语言模型的公司和实验室一般通过搭建集群，然后开放API或者网页demo的方式让用户可以使用模型。在人们纷...

Python入门知识点 10--闭包与装饰器

@网工小赵的博客

07-30

713

什么情况下会用到装饰器特性:在不修改源代码的基础上,给函数加功能。

【Python数据增强】图像数据集扩充

阿齐Archie

07-25

2337

该脚本用于图像数据增强，特别是目标检测任务中的图像和标签数据增强。通过应用一系列数据增强技术（如旋转、平移、裁剪、加噪声、改变亮度、cutout、翻转等），生成多样化的图像数据集，以提高目标检测模型的鲁棒性和准确性。

python语言利用Tkinter实现GUI计算器|（二）优化计算器：过滤用户不合理的输入

人工智能视觉分析算法学习实践和经验分享。

07-27

764

python语言利用Tkinter实现GUI计算器|（二）优化计算器python语言利用Tkinter实现GUI计算器|（二）计算器打包。

【Python】基于Q-learning 强化学习的贪吃蛇游戏（源码+论文）【独一无二】

测试开发自动化

07-26

1515

贪吃蛇环境模块：定义了游戏规则、状态空间、动作空间，并实现了环境的重置和步进逻辑。Q-learning 算法代理模块：实现了 Q-learning 算法，用于学习和决策游戏中的动作选择。游戏窗口模块：使用 Tkinter 创建图形界面展示游戏过程，并与环境和 Q-learning 代理进行交互。该设计使得贪吃蛇游戏能够通过强化学习算法进行自动训练，并通过图形界面展示训练过程。👉👉👉 源码获取关注【测试开发自动化】公众号，回复 “ 强化贪吃蛇 ” 获取，拿来即用。👈👈👈。

【Python】字母 Rangoli 图案

u010528690的博客

07-27

860

You are given an integer N. Your task is to print an alphabet rangoli of size N. (Rangoli is a form of Indian folk art based on creation of patterns.)Different sizes of alphabet rangoli are shown below:The center of rangoli has the first alphabet letter a,

【Python】Python化妆品评论贝叶斯情感分析可视化（源码+数据集）【独一无二】

测试开发自动化

07-28

690

👉博__主👈：米码收割机👉技__能👈：C++/Python语言👉公众号👈：测试开发自动化【获取源码+商业合作】👉荣__誉👈：阿里云博客专家博主、51CTO技术博主👉专__注👈：专注主流机器人、人工智能等相关领域的开发、测试技术。

从0开始搭建vue + flask 旅游景点数据分析系统（四）：编写前端首页【数据驾驶舱】

roccreed的专栏

07-28

334

- 本期我们编写数据驾驶舱页面(Dashboard)这个页面。 - 主要任务是引入echarts 组件编写数据驾驶舱页面。

NumPy冷知识 56个

刘念卿的博客

07-25

951

Numpy冷知识

python爬虫招聘网站数据分析_Python爬虫实例——基于招聘网站发帖数据

06-06

好的，您的问题是关于Python爬虫和数据分析的实例，基于招聘网站发帖数据。这是一个非常有趣和实用的应用场景，以下是一个简单的实现步骤： 1. 确定目标网站：选择一个大型的招聘网站，比如智联招聘、拉钩网等； 2. 学习网站结构：分析网站结构，确定需要爬取哪些信息，比如职位名称、薪资、公司名称、工作地点等； 3. 编写爬虫程序：使用Python的爬虫库（比如requests、BeautifulSoup、Scrapy等）编写爬虫程序，爬取目标网站的数据； 4. 数据清洗和处理：对爬取的数据进行清洗和处理，比如去除重复数据、格式化数据等； 5. 数据分析和可视化：使用Python的数据分析库（比如pandas、matplotlib、seaborn等）对数据进行分析和可视化，比如职位数量、薪资分布、热门岗位等。这是一个简单的实现步骤，具体的实现细节还需要根据实际情况进行调整。希望能对您有所帮助！