使用python中的requests模块发送请求,接着使用lxml解析页面,再使用xpath提取节点信息。
from retrying import retry
from lxml import etree
import requests
import re
import os
class Spider(object):
def __init__(self):
self.headers = {
'''模拟浏览器,防反爬,同理可以加上refer与cookie'''
"User_Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}
'''尝试五次'''
@retry(stop_max_attempt_number=5)
def _parse_