【python 爬虫】 scrapy 入门--爬取百度新闻排行榜

本文介绍了使用Python的scrapy框架爬取百度新闻排行榜的步骤,包括scrapy的下载与安装、项目的初始化、spider的创建、parse函数的实现,以及数据实例化、保存和导出。此外,还提到了通过item pipeline将数据保存为JSON文件和SQLite数据库的方法。
摘要由CSDN通过智能技术生成

scrapy 入门–爬取百度新闻排行榜


环境要求:python2/3(anaconda)
         scrapy库
开发环境:sublime text + windows cmd

  1. 下载scrapy(需要python支持)
  2. 初始化项目
  3. 添加一个新的spider
  4. 实现parse函数
  5. 其他骚操作

在没接触到scrapy之前,我爬虫用的request库去获取HTML然后用正则去匹配出需要的内容,之后可以再按照自己的需要导出成json文件。也尝试过一些模拟登陆的操作

request请求HTML -->  正则解析内容 -->  导出Json

现在scrapy框架已经帮你封装好实现了功能性的代码,只要关注于你要做什么要什么

spider类填写url —>  实现parse函数 -->  item pipeline导出数据

接下来我一 一来介绍如何快速上手去爬取百度新闻排行榜

下载scrapy(需要python支持)
我用的用的anaconda来搭建的python2的环境
然后命令行直接输入pip install scrapy等待一段时间久安装好了,如果遇到问题可以百度尝试解决
初始化项目
scrapy startproject 项目名
cd 项目名
生成一个新的scrapy项目
    E:.
    │  scrapy.cfg
    │  
    └─baidutop
        │  items.py           数据模型化对象
        │  middlewares.py     中间件
        │  pipelines.py       数据获取后的item通道,用于数据对象的处理
        │  settings.py        当前爬虫的设置文件
        │  __init__.py
        │  
        └─spiders
                __init__.py
添加一个新的spider
scrapy genspider BaiBuTop baidu.com   这里以baidutop名为例子
这一步会在spiders文件下产生一个BaiBuTop 的spider文件
你需要做的就是填写url和需要爬取的内容
    值得一说的是scrapy采用的是Xpath和css选择器语言,构建于 lxml 库之上,
    而这个库是一个基于 ElementTree的python化的XML解析库,(也可以解析
  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值