使用LinkedIn Jobs Scraper抓取数据指南

最新推荐文章于 2024-08-28 09:50:06 发布

齐飞锴Timothea

最新推荐文章于 2024-08-28 09:50:06 发布

阅读量719

点赞数 9

本文链接：https://blog.csdn.net/gitblog_00192/article/details/141522291

版权

使用LinkedIn Jobs Scraper抓取数据指南

linkedin-jobs-scraperScrape LinkedIn job postings using Selenium WebDriver with python bindings项目地址:https://gitcode.com/gh_mirrors/li/linkedin-jobs-scraper

项目介绍

LinkedIn Jobs Scraper 是一个基于Python的工具，它允许用户通过无头浏览器技术（如Headless Chrome）从LinkedIn平台上抓取公开的职位信息。该工具设计用于个人和教育目的，确保遵循LinkedIn的数据政策，仅访问可公共获取的数据。提取的信息包括职位ID、链接、申请链接、公司详情、位置、描述等。值得注意的是，所有通过本工具获取的数据产权仍归LinkedIn所有，且使用者应避免任何商业或不恰当用途。

项目快速启动

安装

首先，确保你的环境满足以下要求：Chrome或Chromium浏览器以及对应的Chromedriver（推荐最新版本）。然后，使用pip安装项目：

pip install linkedin-jobs-scraper

示例代码

快速启动示例，演示如何初始化爬虫并获取职位列表：

import logging
from linkedin_jobs_scraper import LinkedinScraper
from linkedin_jobs_scraper.events import Events, EventData, EventMetrics
from linkedin_jobs_scraper.query import Query, QueryOptions, QueryFilters

# 设置日志
logging.basicConfig(level=logging.INFO)

async def main():
    # 初始化LinkedIn Scraper
    scraper = LinkedinScraper(headless=True)
    
    # 创建查询条件
    query = Query(
        query="软件工程师",
        location="北京",
        options=QueryOptions(
            limit=10,
            apply_link=True,
            skip_promoted_jobs=True,
            skills=True
        )
    )

    # 注册事件监听以接收数据
    @scraper.on(Events.JOB_EVENT)
    async def on_job_event(data: EventData):
        print(f"Job Title: {data.title}\nCompany: {data.company}\nLocation: {data.place}")
        
    # 开始抓取
    await scraper.start([query])
    
    # 结束时关闭浏览器
    await scraper.close()

# 运行
if __name__ == "__main__":
    import asyncio
    asyncio.run(main())