使用Scrapy爬取传智讲师个人信息

使用Scrapy爬取传智讲师个人信息

一. 新建项目(scrapy startproject)

​ 打开命令行,按以下步骤操作

C:\Users\JunSIr>d:

D:\mkdir scrapyProject

D:\>cd scrapyProject 

D:\scrapyProject>scrapy startproject firstSpider
------------------------------------------------------------
New Scrapy project 'firstSpider', using template directory 'D:\anaconda\lib\site-packages\scrapy\templates\project', created in:
    D:\scrapyProject\firstSpider
 
You can start your first spider with:
    cd firstSpider
    scrapy genspider example example.com
------------------------------------------------------------
D:\scrapyProject>cd  firstSpider

D:\scrapyProject\firstSpider>
  1. 打开pycharm --> 文件—>打开—>找到我们之前用命令行创建的爬虫文件夹,看到如下

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UchvUelD-1571155148790)(C:\Users\JunSIr\AppData\Roaming\Typora\typora-user-images\1571034059471.png)]

  • scrapy.cfg: 项目的配置文件。
  • items.py: 项目的目标文件。
  • pipelines.py: 项目的管道文件。
  • settings.py: 项目的设置文件。
  • /spiders/: 存储爬虫代码目录。

二、确定目标

我们的目标url是: http://www.itcast.cn/channel/teacher.shtml

需要获取的数据为:

  • 讲师姓名
  • 职称
  • 个人信息
  1. 打开items.py文件,完成如下代码编写
import scrapy
class FirstspiderItem(scrapy.Item):  
name = scrapy.Field()
title = scrapy.Field()
info = scrapy.Field()

三、爬虫编写

1.爬数据

命令行在firstSpider目录下,输入如下命令

D:\scrapyProject\firstSpider>scrapy genspider itcast "itcast.cn"

pycharm中spiders/下会多处一个itcast.py文件,其中代码如下

# -*- coding: utf-8 -*-
import scrapy

class ItcastSpider(scrapy.Spider):  
name = 'itcast'
allowed_domains = ['itcast.cn'] 
start_urls = ['http://itcast.cn/']  

def parse(self, response):   
pass
  • name = “” :这个爬虫的识别名称,必须是唯一的,在不同的爬虫必须定义不同的名字。

  • allow_domains = [] 是搜索的域名范围,也就是爬虫的约束区域,规定爬虫只爬取这个域名下的网页,不存在的URL会被忽略。

    </
  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值