【Python爬虫案例学习10】基于Requests爬取拉勾网招聘信息,并保存至本地csv文件

开发环境:

  • MacBook Air (13-inch, Early 2015)
  • macOS High Sierra 10.13.6
  • 1.6GHZ Inter Core i5
  • Python:V 3.7.0

拉勾网Html页面分析

首先,使用自己账号登陆拉勾网,这个在分析header中会带有cookies等信息,在spider模拟访问请求的url时,被反爬虫的概率更小些(ps:拉勾网总不至于不让用户查询招聘信息吧…)

当然,也可以不用账号的信息进行爬取,代码应该大体相同,不同的只会在header的参数略微有区别。

登陆完成后,在拉勾网的首页(https://www.lagou.com/)检索栏输入“产品经理”,点击搜索Butten,招聘信息列表页面如下图所示:

image

image

每1页展示15个招聘职位,总展示30页的招聘信息。

结论:所以单次职位的检索,仅可以spider的职位数量为450个招聘职位。

2、我们再看下Html

image

image

image

关于页面的Html分析如下:

(1)Request URL:https://www.lagou.com/jobs/positionAjax.json?city=北京&needAddtionalResult=false

这个url会是我们本次模拟的Request的url,其中"city=%E5%8C%97%E4%BA%AC"在Query String Parameters(请求参数)中有对应的参数,对应:北京

所以我们本次Request的url可以这样定义:

image

(2)、Form Data的参数

拉勾网将是否是第一次请求、当前的页码,以及输入的招聘职位信息全部包含在Form Data中

从截图看,当前页面是第一页,所以肯定是第一次请求。

我们在看下第二页的参数信息。

image

当我们点击第二页的时候,请求记录中会多出现一条请求记录,请求的url链接依然是我们上面分析的url,但是Form Data的参数调整为第二页对应的参数,见截图。

所以,在Request请求时,我们就可以按照这个规律拼装Form Data参数。

(3)、result中的惊喜

在url->Preview->content->positionResult->result中(见Html的第三张截图),竟然可以找到页面招聘列表页,我们需要的15个招聘职位信息…这也是拉勾网最让我吃惊的地方,这样让爬取招聘信息变得如此简单。

三、爬取拉钩网实战

先上全部代码,如下:

import requests
import pandas
import time
import random
'''
遇到不懂的问题?Python学习交流群:821460695满足你的需求,资料都已经上传群文件,可以自行下载!
'''
#用于获取页面信息
def getWebResult(url,cookies,form,header):
    html = requests.post(url=url,cookies=cookies,data=form, headers=header)
    result = html.json()
    #找到html中result包含的招聘职位信息
    data = result['content']['positionResult']['result'] # 返回结果在preview中的具体返回值
    return data

#将招聘信息按照对应的参数,组装成字典
def getGoalData(data):
    for i in range(15):#每页默认15个职位
        info={
            'positionName': data[i]['positionName'],    #职位简称
            'companyShortName': data[i]['companyShortName'],    #平台简称
            'salary': data[i]['salary'],    #职位薪水
            'createTime': data[i]['createTime'],    #发布时间
            'companyId':data[i]['companyId'],   #公司ID
            'companyFullName':data[i]['companyFullName'],   #公司全称
            'companySize': data[i]['companySize'],  #公司规模
            'financeStage': data[i]['financeStage'],    #融资情况
            'industryField': data[i]['industryField'],  #所在行业
            'education': data[i]['education'],  #教育背景
            'district': data[i]['district'],    #公司所在区域
            'businessZones':data[i]['businessZones']    #区域详细地
        }
        data[i]=info
    return data

#保存data至笨死csv文件
def saveData(data,stage):
    table = pandas.DataFrame(data)
    table.to_csv(r'/Users/shang/Desktop/myself/LaGou1.csv', header=stage, index=False, mode='a+')

def main():
    # 拼装header信息
    header = {
        'Host': 'www.lagou.com',
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36',
        'Accept': 'application/json, text/javascript, */*; q=0.01',
        'Accept-Language': 'zh-CN,en-US;q=0.9,en;q=0.8',
        'Accept-Encoding': 'gzip, deflate, br',
        'Referer': 'https://www.lagou.com/jobs/list_%E4%BA%A7%E5%93%81%E7%BB%8F%E7%90%86?px=default&city=%E5%8C%97%E4%BA%AC',
        'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
        'X-Requested-With': 'XMLHttpRequest',
        'X-Anit-Forge-Token': 'None',
        'X-Anit-Forge-Code': '0',
        'Content-Length': '55',
        'Connection': 'keep-alive',
        'Pragma': 'no-cache',
        'Cache-Control': 'no-cache, no-store, max-age=0'
        }
    cookies = {
        'Cookie':' _ga=GA1.2.1499991452.1534085805; user_trace_token=20180812225645-ee28a588-9e3f-11e8-a37b-5254005c3644; LGUID=20180812225645-ee28aac6-9e3f-11e8-a37b-5254005c3644; WEBTJ-ID=20180927222225-1661b68d0a37-0b11bfd97d0f95-346a7809-1296000-1661b68d0a47da; _gid=GA1.2.150811619.1538058146; X_HTTP_TOKEN=7ef120203302eaa5cd2d6f14f01d94b8; LG_LOGIN_USER_ID=210fc6122b83eb29927899e722463f91536920a7b853cd6c; _putrc=C259D6000DA09FDE; JSESSIONID=ABAAABAAAGFABEF00AF5692AF9B9D2C66B07270E514B7A9; login=true; unick=%E5%B0%9A%E5%85%A8%E9%91%AB; showExpriedIndex=1; showExpriedCompanyHome=1; showExpriedMyPublish=1; hasDeliver=26; index_location_city=%E5%8C%97%E4%BA%AC; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1538058189,1538137263,1538231886,1538298276; gate_login_token=e052ef59f765dd0dc8e68637d17b953008d587077d8a7f78; TG-TRACK-CODE=search_code; LGSID=20180930224915-006ea101-c4c0-11e8-bb68-5254005c3644; PRE_UTM=; PRE_HOST=; PRE_SITE=https%3A%2F%2Fwww.lagou.com%2F; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2Fjobs%2Flist_%25E4%25BA%25A7%25E5%2593%2581%25E7%25BB%258F%25E7%2590%2586%3FlabelWords%3D%26fromSearch%3Dtrue%26suginput%3D; SEARCH_ID=3dd73994b82a47be86797e1f001db6c6; _gat=1; LGRID=20180930231820-109f3a78-c4c4-11e8-bb68-5254005c3644; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1538320700'
    }


    # 职位关键字
    job='产品经理'

    # 职位所属地
    city = '北京'
    # 模拟请求的url
    url = 'https://www.lagou.com/jobs/positionAjax.json?city=' + city + '&needAddtionalResult=false'

    #用于定义开始爬取的起始页码
    startPage=1

    #拉勾网有个限制,单次只能连续爬取5页,所以使用一个以5页为轮循的小策略
    while startPage<26:
        for i in range(startPage, startPage+5):
            #拼装Form Data信息
            if i == 1:
                flag = 'true' #当是首次请求时,使用flag=true标志
                stage = True  #stage是用来标示csv是否创建表头的参数,仅在第一次保存数据时创建
            else:
                flag = 'false'
                stage = False
            num = i
            form = {'first': flag,  # 标示是否是首次请求标示,第二页以后则为false
                    'kd': job,
                    'pn': str(num)}
            print('------page %s-------' % i) #打印当面爬取的页码

            #调用函数,获取相应的招聘信息
            data = getWebResult(url,cookies,form, header)
            #调用函数,拼装招聘信息
            data_goal = getGoalData(data)
            #调用函数,保存info数据
            saveData(data_goal, stage)

        #以5页为单次,依次轮循
        startPage+=5

        #休眠一定时间
        time.sleep(20+random.randint(10,30))

if __name__ == '__main__':
    main()

lagou_spider.py

代码比较简单,其实主要分为一下几个步骤:

  • 定义url、header、cookie、city、job等基础参数
  • 定义Form Data中的参数
  • request相应的url,获取相应的招聘职位data信息
  • 将data拼装转化成json格式的字典
  • 将data保存至本地的csv文件
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
好的,我可以为您介绍一下如何使用 Python 爬虫来爬取房产数据并保存到本地。 首先,您需要选择一个合适的站来进行爬取。例如,可以选择链家、安居客等房产站。然后,您需要分析该站的页面结构和数据请求方式,确定需要爬取哪些数据,以及如何获取这些数据。 接着,您可以使用 Pythonrequests 库来发送 HTTP 请求,获取页内容。然后,可以使用 BeautifulSoup 库来解析页内容,提取需要的数据。 最后,您可以使用 Python 的 Pandas 库将数据保存到本地的 Excel 或 CSV 文件中。以下是一个示例代码: ```python import requests from bs4 import BeautifulSoup import pandas as pd # 发送 HTTP 请求获取页内容 url = 'https://bj.lianjia.com/ershoufang/' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.content, 'html.parser') # 解析页内容,提取需要的数据 house_list = soup.find_all('div', {'class': 'info'}) data = [] for house in house_list: name = house.find('div', {'class': 'title'}).text.strip() price = house.find('div', {'class': 'price'}).text.strip() area = house.find('div', {'class': 'houseInfo'}).text.strip() data.append([name, price, area]) # 将数据保存到本地文件 df = pd.DataFrame(data, columns=['名称', '价格', '面积']) df.to_excel('house_data.xlsx', index=False) ``` 这是一个简单的示例代码,您可以根据您需要爬取的数据和站的不同来进行修改和优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值