python scrapy爬取腾讯招聘网站保存为csv文件，而且设定其表头顺序(csv默认是无序的)

最新推荐文章于 2024-08-27 13:54:35 发布

行者刘6

最新推荐文章于 2024-08-27 13:54:35 发布

阅读量2.2k

点赞数 2

本文链接：https://blog.csdn.net/qq_38282706/article/details/80280075

版权

本文介绍了如何使用Python的Scrapy框架爬取腾讯招聘网站，并将数据保存为CSV文件，重点在于如何设定CSV文件的列顺序。通过在csv_item_exporter.py中设置，以及在settings.py中配置参数，成功实现了爬取数据的有序保存。

摘要由CSDN通过智能技术生成

要点：1.设定UA

2.创建csv_item_exporter.py 设定csv

3.settings.py设定好参数

4.begin启动程序

目标网址：http://hr.tencent.com/position.php?keywords=&tid=0&star

spider.py(主体很简单)

import os,io,sys,re
from scrapy.spider import Spider
from scrapy.selector import Selector
from lianxi.items import LianxiItem
from scrapy import Request


class LianxiSpider(Spider):
    name = "lianxi"
    allowed_domains = ["hr.tencent.com"]
    start_urls = []

      # 起始urls列表
    for i in range(0,200,10): #爬取了20页
        url='https://hr.tencent.com/position.php?&start='+str(i)+'#a'
        start_urls.append(url)

    def parse(self, response):
        geduan=response.xpath('//table[@class="tablelist"]/tr[not(@class="h"or@class="f")]')
        item=LianxiItem()
        for zhiwei in geduan:
            </