"""
'''
运用request库进行网页的抓取
运用BeautifulSoup库和正则表达式模块进行网页内容的解析
'''
import requests
from bs4 import BeautifulSoup
import re #导入正则表达式
s = 0
r = requests.get('https://book.douban.com/subject/1084336/')
soup = BeautifulSoup(r.text, 'lxml') #把get到的对象作为参数传入BeautifulSoup函数
pattern = soup.find_all('span', 'short') #用find_all寻找评论所在的行,标签span,属性short
#举例,短评在源码中的格式为<span class="short">我觉得小狐狸跟小王子在搞GAY</span>
for item in pattern:
print(item.string)
#对于要获取小王子书评的评分,这种细节内容比较适合于正则表达式
#网页解析中最常用正则表达式:(.*?)
#源代码eg:<span class="user-stars allstar(.*?)rating">
pattern_s = re.compile('<span class="user-stars allstar(.*?)rating">')
p = re.findall(pattern_s, r.text)
for star in p:
s += int(star)
print(s)
简易网络爬虫eg
最新推荐文章于 2021-09-15 15:33:27 发布