scrapy爬虫框架（四）：scrapy中 yield使用详解

最新推荐文章于 2023-12-13 10:37:13 发布

渔父歌

最新推荐文章于 2023-12-13 10:37:13 发布

阅读量7.1k

点赞数 9

分类专栏： python python爬虫入门文章标签：爬虫 scrapy python

本文链接：https://blog.csdn.net/qq_40695895/article/details/82882761

版权

本文详细介绍了在Scrapy爬虫框架中如何使用`yield`进行数据抓取和处理。首先，讲述了准备工作，包括MySQL数据库和pymysql模块的安装。接着，讨论了如何定义items和创建数据库表来存储数据。在爬取信息部分，通过实例讲解了如何使用`yield`发起请求，以及如何处理回调函数和`yield`在不同场景的应用。最后，展示了如何将爬取的数据插入数据库，并提醒了读者注意处理可能的404错误。

摘要由CSDN通过智能技术生成

开始前的准备工作：

MySQL下载：点我
python MySQL驱动下载：pymysql（pyMySql，直接用pip方式安装）

全部安装好之后，我们来熟悉一下pymysql模块

import pymysql

#创建链接对象
connection = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='1234', db='python')
#创建游标 游标用来进行查询，修改等操作
cursor = connection.cursor()

#定义sql语句 这里的sql语法根据使用的数据库不同会有一些小差别
sql = "SELECT * FROM python.text_info where text_title='test'"

#执行sql语句 返回受到影响的行数
cursor.execute(sql)

#获取sql语句执行后的返回数据 默认返回的数据类型为元组
#获取所有返回
r = cursor.fetchall()
#获取一个返回
r = cursor.fetchone()
#获取至多三个返回 不足三个时返回所有
r = cursor.fetchmany(3)
#其他的fetch方法可自行百度

#将返回数据类型改为字典
cursor = connection.cursor(cursor=pymysql.cursors.DictCursor)
#或者在创建连接对象时指定返回数据类型为字典 建议把返回类型修改为字典类型
connection = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='1234', db='python', cursorclass=pymysql.cursors.DictCursor)

#保存所做的修改 在连接关闭之前，如果你没有调用下面的语句
#那么，你之前的所有修改将不会被保存
connection.commit()

#关闭游标
cursor.close()
#关闭连接
connection.close()