网站商品信息爬虫代码及详细注释

最新推荐文章于 2023-12-09 10:30:00 发布

H-T-TYSK

最新推荐文章于 2023-12-09 10:30:00 发布

阅读量957

点赞数

分类专栏：编程文章标签：爬虫注释 url 正则表达式

本文链接：https://blog.csdn.net/yuyushikuan/article/details/71091383

版权

本文档提供了一份网站商品信息爬虫的代码，并进行了详细注释，旨在帮助理解爬虫工作原理。请注意，爬取行为应遵循网站的robots协议，内容来源于北京理工大学的相关课程。

摘要由CSDN通过智能技术生成

import re          #正则表达式库是为了查找
import requests   #requests库是为了获取网页

def getHTMLText(url):  #获取页面,若用bs4解析，就是html格式文本，若不解析，就是一大串字符串
    try:
        r = requests.get(url, timeout = 30) #获得response对象，r是对象
        r.raise_for_status()          #这就是检查是不是很够返回对象
        r.encoding = r.apparent_encoding  #这里改变编码格式，编码格式不一定支持中文，这里让它支持中文
        return r.text  #返回的htm