python爬取动态网站——拉勾网总结

最新推荐文章于 2022-03-30 20:31:16 发布

Durian_cry

最新推荐文章于 2022-03-30 20:31:16 发布

阅读量276

点赞数

文章标签： python 大数据 json

本文链接：https://blog.csdn.net/Durian_cry/article/details/107800275

版权

本文总结了如何使用Python爬取动态加载的拉勾网数据。首先，通过requests.Session获取cookies，结合抓包信息的Request URL和参数来获取所需内容。接着，介绍了所用到的模块，包括requests、json、xlwt、pandas、matplotlib、wordcloud和jieba等，并强调了json数据的处理及列表存储、Counter计数方法的使用。最后，提到了在生成词云时字体选择的重要性。

摘要由CSDN通过智能技术生成

python爬取动态网站——拉勾网总结

1、静态网站和动态加载的网站在爬取的过程中是有区别的。静态网站只需要当前网站的url，而动态加载型的网站需要对当前网页信息进行抓包后，还需要获取抓包后的Request URL和抓包后的其他信息。
步骤：
1）利用requests.Session()，并基于当前网站的url和请求头headers获取首页的cookies。
2）再根据第一获得的cookies，抓包后的Request URL，headers和抓包信息里的搜索的参数信息 Form Data信息才能获取真正想要的岗位文本信息。
如果只利用首页的url查询，会返回空。因为是动态加载的，不在首页的开发代码中，需要抓包才能获得。

2、用到的模块信息：
import requests
import json
import xlwt
import pandas as pd
import matplotlib.pyplot as plt
from wordcloud import WordCloud,ImageColorGenerator
from scipy.misc import imread
import jieba #jieba为强大的分词库，支持中文分词
from pylab import mpl
from collections import Counter

所有模块再用之前，需要pip install 模块名称
（备注：Windos+R进行cmd,不需要进入python，直接pip）

request模块：基于urllib