python 爬虫(二) 使用scrapy初始化一个爬虫

最新推荐文章于 2023-02-10 11:39:27 发布

彦文啊

最新推荐文章于 2023-02-10 11:39:27 发布

阅读量1.1w

点赞数

分类专栏： python scrapy 爬虫

本文链接：https://blog.csdn.net/dream_dt/article/details/80188592

版权

python 同时被 3 个专栏收录

30 篇文章 2 订阅

订阅专栏

scrapy

6 篇文章 1 订阅

订阅专栏

爬虫

6 篇文章 0 订阅

订阅专栏

1.使用spyder 新建一个空项目
2.在Anaconda Prompt下进入项目所在目录输入 scrapy startproject [项目名]
将会生成如下目录结构
spiders 里边主要放我们的爬虫文件现在还没有
items.py里边写我们要保留的字段就是爬到的那些数据要存
middlewares.py 中间件用于扩展Scrapy功能进阶只是前期并不是很需要
pipelines.py主要用于文件储存
settings.py 放一些全局设置用到的时候慢慢解释
3. 在spiders 中新建一个爬虫文件 sina.py

import scrapy
class sinaSpider(scrapy.Spider):
    name='sina' #爬虫的名字
    allowed_domains='tech.sina.com.cn';  #爬虫的域名
    start_urls=['http://tech.sina.com.cn/focus/finance_report/?qq-pf-to=pcqq.c2c'] #爬虫的初始url 入口

    def parse(self, response): #默认的回调处理函数 
        u=response.body
        print(u)

爬虫会从start_urls 开始获取响应获取到响应之后进入 parse 处理

4.在命令行下输入

scrapy crawl sina

即可看到控制台输出获取的html

彦文啊

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫(二) 使用scrapy初始化一个爬虫

1.使用spyder 新建一个空项目 2.在Anaconda Prompt下进入项目所在目录输入 scrapy startproject [项目名] 将会生成如下目录结构 spiders 里边主要放我们的爬虫文件现在还没有 items.py里边写我们要保留的字段就是爬到的那些数据要存 middlewares.py 中间件用于扩展Scrapy功能进阶只是 ...
复制链接

扫一扫