动态网页抓取
如果使用AJAX加载的动态网页,怎么爬取里面动态加载的内容呢?有两种方法:
- 通过浏览器审查元素解析地址
- 通过Selenium模拟浏览器抓取
解析真实地址:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
'''
@File : Dynamic01.py
@Author: Xinzhe.Pang
@Date : 2019/7/5 15:32
@Desc :
'''
import requests
import json
def single_page_comment(link):
headers = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
r = requests.get(link, headers=headers)
# 获取 json 的 string
json_string = r.text
json_string = json_string[json_string.find('{'):-2]
json_data = json.loads(json_string