一个1000元的爬虫外包项目，三种爬虫模式给你轻松做出来

LLand520

于 2021-01-06 16:40:12 发布

阅读量1.8k

点赞数 1

文章标签： python 程序员爬虫外包项目

本文链接：https://blog.csdn.net/lland520/article/details/112281692

版权

本文介绍了如何使用三种爬虫模式（常规爬虫、多线程爬虫和Scrapy框架）爬取猎聘网上Python相关职位的数据，包括标题、薪资、城市等信息。通过Python的requests、parsel库实现常规和多线程爬虫，利用Scrapy框架创建更高效稳定的爬虫。此外，讨论了外包项目价格的影响因素。

摘要由CSDN通过智能技术生成

前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

对于这个外包给予的网站信息，那么我们就爬取选择第一个吧<猎聘网>，也就简单实现，并不会进行打包处理，以及输入关键字爬取。

本篇文章就使用三种爬虫模式爬取相关数据

1、常规爬取数据

2、多线程爬取数据

3、scrapy框架爬取数据

基本开发环境
Python 3.6
Pycharm
相关模块的使用
常规爬取数据

import requests
import parsel
import csv

多线程爬取数据

import requests
import parsel
import csv
import threading

scrapy框架爬取数据

import scrapy
import csv

目标网页分析
爬取python招聘信息数据

数据获取：

1、标题

2、薪资

3、所在城市

4、学历要求

5、工作经验要求

6、公司名字

7、公司福利

8、公司融资情况

9、简历发布时间

…

该网页是比较简单的，静态网页没有什么可以过多的分析，还是比较简单的。

1、模拟浏览器请求网页，获取网页源代码数据

2、解析网页源代码，提取想要的数据内容

3、将提取的数据内容保存成csv文件，或者其他形式

都说比较简单了，那为什么这个外包还价值1000呢？难道外包赚钱真的这么简单么。是不难，但是不意味着1K的外包就很好赚，毕竟别人只是简单的给出几个网站，首先看你是否能爬取其中的数据，其次甲方的要求肯定不至于此。数据量也不简单。所以今天就以三个版本的爬虫爬取数据。

外包的价格高低因素：

任务的难易程度
爬取的数据量
是否紧急需要
是否需要源码
后期是否需要更新代码
…

常规爬虫代码

复制代码
import requests
import parsel
import csv

f = open(‘data.csv’, mode=‘a’, encoding=‘utf-8’, newline=’’)
csv_writer = csv.DictWriter(f, fieldnames=[‘标题’, ‘薪资’, ‘城市’,
‘学历’, ‘工作经验’, ‘公司名字’,
‘融资情况’, ‘公司福利’, ‘招聘时间’,
‘简历反馈时间’
])
csv_writer.writeheader()

for page in range(0, 10):
url = ‘https://www.liepin.com/zhaopin/’
params = {
‘compkind’: ‘’,
‘dqs’: ‘’,
‘pubTime’: ‘’,
‘pageSize’: ‘40’,
‘salary’: ‘’,
‘compTag’: ‘’,
‘sortFlag’: ‘’,
‘degradeFlag’: ‘0’,
‘compIds’: ‘’,
‘subIndustry’: ‘’,
‘jobKind’: ‘’,
‘industries’: ‘’,
‘compscale’: ‘’,
‘key’: ‘python’,
‘siTag’: ‘I-7rQ0e90mv8a37po7dV3Q~fA9rXquZc5IkJpXC-Ycixw’,
‘d_sfro