前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
对于这个外包给予的网站信息,那么我们就爬取选择第一个吧<猎聘网>,也就简单实现,并不会进行打包处理,以及输入关键字爬取。
本篇文章就使用三种爬虫模式爬取相关数据
1、常规爬取数据
2、多线程爬取数据
3、scrapy框架爬取数据
基本开发环境
Python 3.6
Pycharm
相关模块的使用
常规爬取数据
import requests
import parsel
import csv
多线程爬取数据
import requests
import parsel
import csv
import threading
scrapy框架爬取数据
import scrapy
import csv
目标网页分析
爬取python招聘信息数据
数据获取:
1、标题
2、薪资
3、所在城市
4、学历要求
5、工作经验要求
6、公司名字
7、公司福利
8、公司融资情况
9、简历发布时间
…
该网页是比较简单的,静态网页没有什么可以过多的分析,还是比较简单的。
1、模拟浏览器请求网页,获取网页源代码数据
2、解析网页源代码,提取想要的数据内容
3、将提取的数据内容保存成csv文件,或者其他形式
都说比较简单了,那为什么这个外包还价值1000呢?难道外包赚钱真的这么简单么。是不难,但是不意味着1K的外包就很好赚,毕竟别人只是简单的给出几个网站,首先看你是否能爬取其中的数据,其次甲方的要求肯定不至于此。数据量也不简单。所以今天就以三个版本的爬虫爬取数据。
外包的价格高低因素:
任务的难易程度
爬取的数据量
是否紧急需要
是否需要源码
后期是否需要更新代码
…
常规爬虫代码
复制代码
import requests
import parsel
import csv
f = open(‘data.csv’, mode=‘a’, encoding=‘utf-8’, newline=’’)
csv_writer = csv.DictWriter(f, fieldnames=[‘标题’, ‘薪资’, ‘城市’,
‘学历’, ‘工作经验’, ‘公司名字’,
‘融资情况’, ‘公司福利’, ‘招聘时间’,
‘简历反馈时间’
])
csv_writer.writeheader()
for page in range(0, 10):
url = ‘https://www.liepin.com/zhaopin/’
params = {
‘compkind’: ‘’,
‘dqs’: ‘’,
‘pubTime’: ‘’,
‘pageSize’: ‘40’,
‘salary’: ‘’,
‘compTag’: ‘’,
‘sortFlag’: ‘’,
‘degradeFlag’: ‘0’,
‘compIds’: ‘’,
‘subIndustry’: ‘’,
‘jobKind’: ‘’,
‘industries’: ‘’,
‘compscale’: ‘’,
‘key’: ‘python’,
‘siTag’: ‘I-7rQ0e90mv8a37po7dV3Q~fA9rXquZc5IkJpXC-Ycixw’,
‘d_sfro