这个项目是鄙人在第一次接触爬虫时,通过网络途径学习以及对于网站分析得到的有效但非高效的代码。 代码分两个部分,第一部分是获取网址中并未进行加密的(不知道用加密这个词形容合不合适)评论(即评论直接可以在网页源代码中查找到) 第二部分是获取进行加密过的评论(即评论存在于后续请求文件Fetch/XHR中)
其中由于在原始目标中网址https://cn.tripadvisor.com/Airline_Review-d8729000-Reviews-Air-China无法从网址源代码和后续请求中找到评论,所以我从跳转网址https://cn.tripadvisor.com/ShowUserReviews
具体代码文件我放在我的githubKinggggman/Kingggg-: 这是一个基于python语言的爬虫程序,爬取猫途鹰网站中航空公司的评论(新手爬虫过程分享) (github.com)中方便保存和查看。
以下是部分代码的展示
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0',
"Referer": 'https://cn.tripadvisor.com/'
#UA