scrapy爬虫框架(四):scrapy中 yield使用详解

本文详细介绍了在Scrapy爬虫框架中如何使用`yield`进行数据抓取和处理。首先,讲述了准备工作,包括MySQL数据库和pymysql模块的安装。接着,讨论了如何定义items和创建数据库表来存储数据。在爬取信息部分,通过实例讲解了如何使用`yield`发起请求,以及如何处理回调函数和`yield`在不同场景的应用。最后,展示了如何将爬取的数据插入数据库,并提醒了读者注意处理可能的404错误。
摘要由CSDN通过智能技术生成

开始前的准备工作:

MySQL下载:点我
python MySQL驱动下载:pymysql(pyMySql,直接用pip方式安装)

全部安装好之后,我们来熟悉一下pymysql模块

import pymysql

#创建链接对象
connection = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='1234', db='python')
#创建游标 游标用来进行查询,修改等操作
cursor = connection.cursor()

#定义sql语句 这里的sql语法根据使用的数据库不同会有一些小差别
sql = "SELECT * FROM python.text_info where text_title='test'"

#执行sql语句 返回受到影响的行数
cursor.execute(sql)

#获取sql语句执行后的返回数据 默认返回的数据类型为元组
#获取所有返回
r = cursor.fetchall()
#获取一个返回
r = cursor.fetchone()
#获取至多三个返回 不足三个时返回所有
r = cursor.fetchmany(3)
#其他的fetch方法可自行百度

#将返回数据类型改为字典
cursor = connection.cursor(cursor=pymysql.cursors.DictCursor)
#或者在创建连接对象时指定返回数据类型为字典 建议把返回类型修改为字典类型
connection = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='1234', db='python', cursorclass=pymysql.cursors.DictCursor)

#保存所做的修改 在连接关闭之前,如果你没有调用下面的语句
#那么,你之前的所有修改将不会被保存
connection.commit()

#关闭游标
cursor.close()
#关闭连接
connection.close()

一、确定items

我们要爬取的网站是:http://m.50zw.la
要爬取的是小说的信息,如图:

8516750-a43030af8cee4412.png

 

所以items.py文件如下:

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值