Python爬虫实例：使用requests库和re库爬取某旧书网

最新推荐文章于 2021-01-13 20:14:11 发布

尼克张

最新推荐文章于 2021-01-13 20:14:11 发布

阅读量746

点赞数

分类专栏： Python爬虫文章标签： Python 爬虫实例

本文链接：https://blog.csdn.net/weixin_42225163/article/details/89208795

版权

本文介绍了使用requests库和正则表达式re库爬取旧书网书名和价格的过程。在实践中，遇到因网页书名乱码导致的输出乱序问题，提示了正则表达式的复杂性和灵活性。作者因此转向学习BeautifulSoup库，以提高网页解析效率。

摘要由CSDN通过智能技术生成

背景

在简单学习和了requests库和正则表达式re库后，就尝试使用这两个第三方库完成爬取某旧书网书名价格并输出。于是选择了一个静态网页进行爬取，但是最终输出结果出现了部分乱序，是由于正则表达式遇到网页书名乱码导致的存入形式问题。

算法思路

1.爬取网页数据并解码得到文本
定义get方法爬取静态网页

def getHTML(url):
    try:
        kv={'user-agent':'Mozilla/5.0'}
        r=requests.get(url,headers=kv,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return ""

2.按正则表达式查找得到书名和价格并存入列表ilt

def parsePage(ilt, html):
    try:
        plt= re.findall(r'price="(\d.*)"',html)
        tlt= re.findall(r'alt="<b>(.*)</b>(.*)" error="0"',html)
        for i in range(len(plt)):
            ilt.append([plt[i],tlt[i][0]+tlt[i][1]])
    except:
        return ""

最低0.47元/天解锁文章

尼克张

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫实例：使用requests库和re库爬取某旧书网

在简单学习和了requests库和正则表达式re库后，尝试使用这两个第三方库完成爬取某旧书网书名价格并打印。但是最终打印结果出现了部分乱序，猜测是正则表达式形式问题。进而在后面学习中，我就感受到了BeautifulSoup库这种解析库和HTMl类的标签语言的好用。import requestsimport re#爬取网页数据并解码得到文本def getHTML(url): tr...
复制链接

扫一扫

专栏目录