51job爬虫篇(二)

最新推荐文章于 2023-10-27 13:56:10 发布

VIP文章 kelly345

最新推荐文章于 2023-10-27 13:56:10 发布

阅读量595

点赞数

分类专栏： python 文章标签：爬虫 xpath

本文链接：https://blog.csdn.net/kelly345/article/details/52993583

版权

51job爬虫篇(二)

分析篇

继上一篇抓取到了公司名字和公司链接之后，公司的链接里面包含了公司的详细信息，例如公司业务简介，规模以及公司地址
所以我们可以用到上一次抓取回来公司连接地址，再编写不同的爬虫规则，再抓取一次，就可以抓到公司详细信息

继续来分析站点html结构，从下图图一可以看到红色框框就是我们需要的信息，同意可以根据xpath的结构获取指定位置的内容

这里有我们需要的公司简介

这里有我们需要的公司地址

再仔细分析上面的html结构，我们可以通过下面的xpath抓取固定的内容

            item['name'] = response.xpath('//div[@class="tHeader tHCop"]/*/h1/text()').extract()[0]
            item['ltype'] = response.xpath('//div[@class="tHeader tHCop"]/*/p[@class="ltype"]/text()').extract()[

最低0.47元/天解锁文章

优惠劵

kelly345

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
51job爬虫篇(二)

51job爬虫篇(二)分析篇继上一篇抓取到了公司名字和公司链接之后，公司的链接里面包含了公司的详细信息，例如公司业务简介，规模以及公司地址所以我们可以用到上一次抓取回来公司连接地址，再编写不同的爬虫规则，再抓取一次，就可以抓到公司详细信息继续来分析站点html结构，从下图图一可以看到红色框框就是我们需要的信息，同意可以根据xpath的结构获取指定位置的内容这里有我们需要
复制链接

扫一扫