import re #正则表达式库是为了查找
import requests #requests库是为了获取网页
def getHTMLText(url): #获取页面,若用bs4解析,就是html格式文本,若不解析,就是一大串字符串
try:
r = requests.get(url, timeout = 30) #获得response对象,r是对象
r.raise_for_status() #这就是检查是不是很够返回对象
r.encoding = r.apparent_encoding #这里改变编码格式,编码格式不一定支持中文,这里让它支持中文
return r.text #返回的htm
网站商品信息爬虫代码及详细注释
最新推荐文章于 2023-12-09 10:30:00 发布
本文档提供了一份网站商品信息爬虫的代码,并进行了详细注释,旨在帮助理解爬虫工作原理。请注意,爬取行为应遵循网站的robots协议,内容来源于北京理工大学的相关课程。
摘要由CSDN通过智能技术生成