python scrapy爬取智联招聘全站的公司和职位信息（三）

最新推荐文章于 2024-04-13 00:38:24 发布

loonslo_

最新推荐文章于 2024-04-13 00:38:24 发布

阅读量645

点赞数 1

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_40508682/article/details/89281695

版权

本文介绍了使用Python Scrapy框架爬取智联招聘网站上的公司和职位信息。通过讲解items类，展示了如何定义Field来存储解析结果，并详细说明了如何在spider中建立items与爬取数据的联系。

摘要由CSDN通过智能技术生成

items类说明

items用法

在scrapy中，items是保存结构数据的地方，scrapy将解析结果以字典形式返回
下面是scrapy默认给我们创建的items.py文件
```
class ZhaopinItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    pass
```
用法很简单，主需要继承scrapy.Item即可

查看Feild()源码

我们点击看下Field()类其中的内容

class Field(dict):
    """Container of field metadata"""

Field()继承了dict

class dict(object):
    """
    dict() -> new empty dictionary
    dict(mapping) -> new dictionary initialized from a mapping object's
        (key, value) pairs
    dict(iterable) -> new dictionary initialized as if via:
        d = {}
        for k, v in iterable:
            d[k] = v
    dict(**kwargs) -> new dictionary initialized with the name=value pairs
        in the keyword argument list.  For example:  dict(one=1, two=2)
    """

由dict中的内容可以看出，Field()最终只是存储一些格式化的东西

在items中添加 Field

在zhilian.py中，我们通过scrapy shell获得得每一个数据，都需要创建对应的Field()

添加职位相关的item

class ZhaopinJobItem(scrapy.Item):
    jobs_url = scrapy.Field()
    update_time = scrapy.Field()
    job_title = scrapy.Field()
    salary = scrapy.Field(