python爬取动态网站——拉勾网总结

本文总结了如何使用Python爬取动态加载的拉勾网数据。首先,通过requests.Session获取cookies,结合抓包信息的Request URL和参数来获取所需内容。接着,介绍了所用到的模块,包括requests、json、xlwt、pandas、matplotlib、wordcloud和jieba等,并强调了json数据的处理及列表存储、Counter计数方法的使用。最后,提到了在生成词云时字体选择的重要性。
摘要由CSDN通过智能技术生成

python爬取动态网站——拉勾网总结

1、静态网站和动态加载的网站在爬取的过程中是有区别的。静态网站只需要当前网站的url,而动态加载型的网站需要对当前网页信息进行抓包后,还需要获取抓包后的Request URL和抓包后的其他信息。
步骤:
1)利用requests.Session(),并基于当前网站的url和请求头headers获取首页的cookies。
2)再根据第一获得的cookies,抓包后的Request URL,headers和抓包信息里的搜索的参数信息 Form Data信息才能获取真正想要的岗位文本信息。
如果只利用首页的url查询,会返回空。因为是动态加载的,不在首页的开发代码中,需要抓包才能获得。

2、用到的模块信息:
import requests
import json
import xlwt
import pandas as pd
import matplotlib.pyplot as plt
from wordcloud import WordCloud,ImageColorGenerator
from scipy.misc import imread
import jieba #jieba为强大的分词库,支持中文分词
from pylab import mpl
from collections import Counter

所有模块再用之前,需要pip install 模块名称
(备注:Windos+R进行cmd,不需要进入python,直接pip)

request模块:基于urllib

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值