python scrapy爬虫学习(包含集成django方法,以及在django页面中启动爬虫)

爬虫开发步骤

一、环境介绍

开发工具:pycharm(社区版本)
python版本:3.7.4
scrapy版本:1.7.3

二、整体步骤

1.创建项目:scrapy startproject xxx(项目名字,不区分大小写)
2.明确目标 (编写items.py):明确你想要抓取的目标
3.制作爬虫 (spiders/xxspider.py):制作爬虫开始爬取网页
4.存储内容 (pipelines.py):设计管道存储爬取内容
5.设置settings.py:

  1. USER_AGENT=网页中-F12-网络-找到爬取地址的请求-右侧看消息头-找到USER_AGENT填写到该处;
  2. ROBOTSTXT_OBEY=False忽略被爬取网站的允许爬取列表限制,Ture根据授权列表爬取,没有权限的不去爬取
  3. DOWNLOAD_DELAY=下载延迟,数值
  4. ITEM_PIPELINES=多个管道处理时设置优先级,根据:xx冒号后面的数值大小排序

6.启动程序的py文件(start.py):等同于此命令(scrapy crawl xxx -o xxx.json)

三、开发准备

1.在pycharm工具setting中安装scrapy插件
2.项目右键选择打开终端
在这里插入图片描述
3.在终端中输入爬虫创建命令
在这里插入图片描述
执行成功后在项目目录下生成爬虫项目
在这里插入图片描述
项目结构如下
在这里插入图片描述
3.各个文件功能介绍
(1)iterms.py是用于封装爬虫爬取内容的实体,具体如下:

import scrapy


class PachongItem(scrapy.Item):  
    # define the fields for your item here like:
    date = scrapy.Field()
    open = scrapy.Field()
    close = scrapy.Field()
    height = scrapy.Field()
    low = scrapy.Field()
    updownd = scrapy.Field()
    turnrate = scrapy.Field()
    count = scrapy.Field()

如果要集成django,使用django的持久化对象以及其数据库操作能力的话,需要安装scrapy_djangoitem插件,然后做如下引用

import scrapy
from scrapy_djangoitem import DjangoItem
import blog.models as m #  保证django项目与爬虫项目在一个工程下,然后引用django的实体模型


class PachongItem(DjangoItem):  # scrapy.Item
    # define the fields for your item here like:
    # date = scrapy.Field()
    # open = scrapy.Field()
    # close = scrapy.Field()
    # height = scrapy.Field()
    # low = scrapy.Field()
    # updownd = scrapy.Field()
    # turnrate = scrapy.Field()
    # count = scrapy.Field()
    django_model = m.Spider  #  m.spider是django中定义的实体

(2)pachong_spider.py爬虫主体方法,文件名可以自定义

from
  • 3
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Python是一种高级编程语言,而DjangoScrapyPython的两个流行的库。这些库都可以用于构建Web应用程序和爬虫。 首先,Python是一种易学易用的编程语言,它具有简洁的语法和强大的功能,非常适合初学者和专业开发人员。它在许多领域都有广泛的应用,包括Web开发、数据分析和人工智能等。 然后,Django是一个基于Python的开发框架,它提供了一系列的工具和组件,使开发Web应用程序变得更加简单和高效。使用Django可以快速构建安全、可扩展和易维护的Web应用程序。它提供了强大的ORM(对象-关系映射)功能,可以使用Python代码来操作数据库。 最后,Scrapy是一个强大的Python爬虫框架,用于抓取和提取互联网上的数据。它提供了简单易用的API和丰富的功能集,可用于构建高性能的网络爬虫Scrapy支持异步并发请求,具有自动重试和错误处理等功能。它还提供了强大的数据提取功能,可以将爬取的数据存储到数据库或导出为不同的格式。 为了可视化PythonDjangoScrapy,可以使用各种库和工具。例如,可以使用Matplotlib、Seaborn和Plotly等库创建各种图表来展示数据。此外,可以使用Django的模板语言和前端框架如Bootstrap来设计和构建用户界面。还可以使用Django的内置管理界面来可视化管理数据库的数据。 总之,PythonDjangoScrapy是强大的工具和库,可以用于开发Web应用程序和爬虫。通过使用适当的可视化库和技术,可以为这些应用程序创建出色的可视化效果,使用户能够更好地理解和分析数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值