python爬虫小练习之二：bs4库以及遇到的问题

最新推荐文章于 2024-02-20 21:40:50 发布

StarLord007

最新推荐文章于 2024-02-20 21:40:50 发布

阅读量2.4k

点赞数

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/q1694222672/article/details/79346504

版权

本文记录了一次使用Python的bs4库爬取猫途鹰旅游网信息时遇到的问题。在尝试抓取标题、图片URL和标签过程中，发现图片URL因网站反爬机制而在源代码中被隐藏在script标签内。虽然作者目前还不熟悉正则表达式，但意识到可以通过解析JS来获取真实地址，以此来应对这种反爬策略。这次练习旨在提升对不同网页结构的分析能力，学习小技巧，并将持续努力。

摘要由CSDN通过智能技术生成

简单爬取猫途鹰旅游网信息
[https://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html]

这里写图片描述
内容就是这样的，爬取标题，图片地址，以及标签

下面代码

from bs4 import BeautifulSoup
import requests

url = 'https://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html'
wb_data = requests.get(url)#返回response  200
#print(wb_data.text)   网页源代码内容</