当然了,还是不建议这样去写,不过可以,这样的方法可以检测你提取数据时,是否有错误
import requests
import parsel
response = requests.get(url=url, headers=headers, cookies=cookie)
selector = parsel.Selector(response.text)
urls = selector.css(‘.article-list h4 a::attr(href)’).getall()
for html_url in urls:
print(html_url)
这样就获取了每一篇文章的url地址
提取解析方法同上
response = requests.get(url, headers=headers, cookies=cookie)