![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scrapy爬虫
Call me 程序员
一个菜比,还需努力!
展开
-
Django调用Scrapy爬虫实现异步爬虫(前端输入爬虫字段信息,后端执行爬虫过程)
1. 首先将我们在scrapy中的项目发布原创 2020-05-20 16:18:36 · 1981 阅读 · 1 评论 -
发布Scrapy项目到scrapyd
1. 安装scrapyd包文件 2. 启动scrapyd cmd黑屏终端输入scrapyd就可以启动 2. scrapy.cfg里修改以下内容 # Automatically created by: scrapy startproject # # For more information about the [deploy] section see: # https://scrapyd.readthedocs.io/en/latest/deploy.html [settings] default = bl原创 2020-05-20 16:08:42 · 509 阅读 · 0 评论 -
Scrapy实现爬取新浪微博用户信息(爬虫结果写入mongodb)
爬取字段有: 微博ID 微博昵称 性别 地区信息 认证信息 个性签名 发表微博个数 粉丝个数 关注个数 spiders文件夹下microID_Spider.py这样写: # -*- coding: utf-8 -*- import scrapy from scrapy.selector import Selector from blogSpider.items import blogIDItem class MicroidSpiderSpider(scrapy.Spider): name =原创 2020-05-20 15:29:56 · 605 阅读 · 2 评论 -
Scrapy实现微博关键词爬虫(爬虫结果写入mongodb)
话不多说,上代码: spiders文件夹下的microBlogSpider.py里这样写: # -*- coding: utf-8 -*- import scrapy from scrapy import Spider, Request, FormRequest from scrapy.selector import Selector import datetime import random from blogSpider.items import microBlogItem, keyWordItem f原创 2020-05-20 15:24:17 · 1572 阅读 · 1 评论 -
创建Scrapy项目过程及各文件含义
废话不多说,直接上步骤: 首先,要下载scrapy的包文件,下载好之后,win+R打开黑屏终端,输入scrapy就可以查看版本信息,以及已经发布的scrapy项目的信息。 (注:如果已经在自己电脑上发布了scrapy项目,黑屏终端输入scrapy启动服务之后,就可以通过浏览器127.0.0.1:6800查看已经发布的项目了) 1. 使用cmd黑屏终端cd到你要创建项目的目录下,然后输入以下内容 scrapy startproject xxx 其中xxx是你项目的名称 如下图所示: 2. 创建完毕之后,就可原创 2020-05-20 14:55:17 · 1150 阅读 · 0 评论