爬豆瓣网页数据

为项目创建单独的虚拟环境

编写蜘蛛代码  在parse方法中编写解析页面的代码  将response包装成Selector选择器对象  用选择器对象的css方法解析  得到li列表项并将其存入list集合中  遍历集合  通过css选择li标签的文本,extract_first抽取里面的第一条数据,拿到数据  然后将数据封装到Item对象上  然后通过yield生成器将Item对象提交给引擎  引擎再将数据对象转发到管道上。

爬取多个页面  在蜘蛛类定义start_request方法  用for循环构造好一组请求的网址  然后将这一组请求的网址提交给引擎处理

将数据写入数据库  在管道文件中  定义数据库管道的类  在数据库的类中定义三个方法  第一个方法是使用pymysql.connect建立数据库链接  建立游标  第二个方法是commit提交数据后close关闭数据库连接  第三个方法是游标的execute方法执行数据插入数据库的sql语句(insert into 表名称(属性)values(数据))  

下载中间件的使用  在中间件文件中  有个钩子函数process_request  这个函数可以拦截请求  在被拦截的请求中添加cookie字典  模拟已经登陆的用户

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值