03--构造爬虫爬腾讯招聘,实现翻页爬取

最新推荐文章于 2024-06-04 23:59:03 发布

SpecYue

最新推荐文章于 2024-06-04 23:59:03 发布

阅读量158

点赞数

分类专栏： scrapy爬虫框架

本文链接：https://blog.csdn.net/qq_34788903/article/details/89681360

版权

创建项目

scrapy startproject tencent

cd tencent 打开项目目录

scrapy genspider hr tence.com# hr为spder文件的名字,tencent.com是允许爬的域名范围

在这里插入图片描述

hr.py

设置初始的url地址
打开网页源代码根据xpath找需要的信息
取标签的文本值使用text()函数,去标签的属性值用@,比如取a标签的地址response.xpath("//a[@id='next']/@href").extract_first()
另外每个后面要加上extract_first()

# -*- coding: utf-8 -*-
import scrapy


class HrSpider(scrapy.Spider):
    name = 'hr'
    allowed_domains = ['tencent.com']
    start_urls = ['https://hr.tencent.com/position.php']

    def parse(self, response):
        tr_list = response.xpath("//table[@class='tablelist']/tr")[1:-1]
        for tr in tr_list:
            item = {
   }
            item["title"] = tr

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SpecYue

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
03--构造爬虫爬腾讯招聘,实现翻页爬取

创建项目scrapy startproject tencentcd tencent 打开项目目录 scrapy genspider hr tence.com# hr为spder文件的名字,tencent.com是允许爬的域名范围hr.py设置初始的url地址打开网页源代码根据xpath找需要的信息取标签的文本值使用text()函数,去标签的属性值用@,比如取a标签的地址re...
复制链接

扫一扫