朋友让看一个天涯的帖子,打开帖子看了3页,一共有135页,这个帖子已经写了2年多了,回帖的人很多,想只看楼主的帖子,还要vip帐户,让我充vip,呵呵,是不可能的
经过研究,成功爬下全文:
该代码使用时,一定要使用自己的天涯帐户进行先登录,把页面的cookie值copy到下面的代码中,否则无法获取任何内容!
代码如下:
from requests_html import HTMLSession
import time
session = HTMLSession()
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36",
"Cookie": "",# 值为用自己帐户登录以后,copy到这里即可
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
"A