思路
先从唐诗300首页面获取所有唐诗详情页的链接;
再从每一首唐诗的详情页提取标题、作者、朝代、内容等信息。
源码
# !/usr/bin/env python
# -*- coding:utf-8 -*-
import re
import requests
def crawl(start_url):
base_url='http://so.gushiwen.org'
req_headers={
'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}
res=requests.get(start_url,headers=req_headers)