Learn Beautiful Soup(4)—— 一个简单抓取图书信息的例子

最新推荐文章于 2024-04-24 08:26:26 发布

Suagr

最新推荐文章于 2024-04-24 08:26:26 发布

阅读量4.7k

点赞数 2

分类专栏： Python python学习——Learn Beautiful Soup 文章标签： beautifulsoup python 正则表达式

本文链接：https://blog.csdn.net/abclixu123/article/details/39754619

版权

Python 同时被 2 个专栏收录

26 篇文章 0 订阅

订阅专栏

python学习——Learn Beautiful Soup

10 篇文章 12 订阅

订阅专栏

抓取图书信息的网站地址为www.packtpub.com/all

展示内容如下：

我们的目的很简单——获取当前页每本书的名字和价格。

审查元素可以看出页面结构如下：

可以通过查找"book-block-title"定位标题，这里用到find_all()方法，这样就可以找到所有书的标题，它们构成了一个列表。然后循环查找书的价格。注意到书的价格独立于任何标签之外，所以运用到了上篇文章讲到的正则表达式匹配进行查找。

注：这里遇到了一个问题，我用NOTEPAD运行我写的代码时，报UnicodeEncodeError错误，用了很多方法未果。然后用Python自带的IDLE运行程序，一次通过，知道是编码问题，但不知道怎么解决，暂且放下。而且发现爬取信息的时候很慢，以为是BeautifulSoup问题，结果加入时间模块检测，发现是网页打开占去了大部分时间，爬取信息还是蛮快的。

下面是示例代码：

import urllib.request
import datetime
import re

from bs4 import BeautifulSoup

starttime = datetime.datetime.now()

url = "https://www.packtpub.com/all"
page = urllib.request.urlopen(url)
soup_packtpage = BeautifulSoup(page)
page.close()

endtime = datetime.datetime.now()
print (endtime - starttime)

starttime = datetime.datetime.now()

all_book_title = soup_packtpage.find_all("div", class_="book-block-title")


price_regexp = re.compile(u"\s+£\s\d+\.\d+")

for book_title in all_book_title:
	print("Book's name is " + book_title.string.strip())
	book_price = book_title.find_next(text=price_regexp)
	print("Book's price is "+ book_price.strip())
	print("\n")
	
endtime = datetime.datetime.now()

print (endtime - starttime)

输出：