简单的网络scrapy爬虫示例代码

最新推荐文章于 2023-07-10 02:24:36 发布

光英的记忆

最新推荐文章于 2023-07-10 02:24:36 发布

阅读量575

点赞数

分类专栏： Scrapy网络爬虫

本文链接：https://blog.csdn.net/qq_29678299/article/details/90610563

版权

# -*- coding: utf-8 -*-
import scrapy


# scrapy genspider itcast "itcast.cn"
# scrapy startproject mySpider


class ITcastItem(scrapy.Item):
    name = scrapy.Field()
    title = scrapy.Field()
    info = scrapy.Field()


class ItcastSpider(scrapy.Spider):
    name = 'itcast'
    allowed_domains = ['itcast.cn']
    start_urls = ["http://www.itcast.cn/channel/teacher.shtml", ]

    # scrapy crawl itcast
    # scrapy crawl itcast -o teachers.csv
    # scrapy crawl itcast -o teachers.json
    # scrapy crawl itcast -o teachers.jsonl
    # scrapy crawl itcast -o teachers.xml
    def parse(self, response):
        filename = "teacher.html"
        open(filename, 'wb').write(response.body)
        context = response.xpath('/html/head/title/text()')
        title = context.extract_first()
        print(title)
        # 存放老师信息的集合
        items = []

最低0.47元/天解锁文章

光英的记忆

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
简单的网络scrapy爬虫示例代码

# -*- coding: utf-8 -*-import scrapy# scrapy genspider itcast "itcast.cn"# scrapy startproject mySpiderclass ITcastItem(scrapy.Item): name = scrapy.Field() title = scrapy.Field() ...
复制链接

扫一扫

专栏目录