python爬取动态网站——拉勾网总结
1、静态网站和动态加载的网站在爬取的过程中是有区别的。静态网站只需要当前网站的url,而动态加载型的网站需要对当前网页信息进行抓包后,还需要获取抓包后的Request URL和抓包后的其他信息。
步骤:
1)利用requests.Session(),并基于当前网站的url和请求头headers获取首页的cookies。
2)再根据第一获得的cookies,抓包后的Request URL,headers和抓包信息里的搜索的参数信息 Form Data信息才能获取真正想要的岗位文本信息。
如果只利用首页的url查询,会返回空。因为是动态加载的,不在首页的开发代码中,需要抓包才能获得。
2、用到的模块信息:
import requests
import json
import xlwt
import pandas as pd
import matplotlib.pyplot as plt
from wordcloud import WordCloud,ImageColorGenerator
from scipy.misc import imread
import jieba #jieba为强大的分词库,支持中文分词
from pylab import mpl
from collections import Counter
所有模块再用之前,需要pip install 模块名称
(备注:Windos+R进行cmd,不需要进入python,直接pip)
request模块:基于urllib