简易网络爬虫eg

最新推荐文章于 2021-09-15 15:33:27 发布

Poisson_SHAN

最新推荐文章于 2021-09-15 15:33:27 发布

阅读量196

点赞数

分类专栏： Python学习

本文链接：https://blog.csdn.net/Poisson_SHAN/article/details/84839990

版权

Python学习专栏收录该内容

48 篇文章 2 订阅

订阅专栏

"""
'''
运用request库进行网页的抓取
运用BeautifulSoup库和正则表达式模块进行网页内容的解析

'''
import requests
from bs4 import BeautifulSoup
import re #导入正则表达式
s = 0
r = requests.get('https://book.douban.com/subject/1084336/')
soup = BeautifulSoup(r.text, 'lxml') #把get到的对象作为参数传入BeautifulSoup函数
pattern = soup.find_all('span', 'short') #用find_all寻找评论所在的行，标签span,属性short
#举例，短评在源码中的格式为<span class="short">我觉得小狐狸跟小王子在搞GAY</span>
for item in pattern:
    print(item.string)


#对于要获取小王子书评的评分，这种细节内容比较适合于正则表达式
#网页解析中最常用正则表达式：(.*?)
#源代码eg:<span class="user-stars allstar(.*?)rating">    
pattern_s = re.compile('<span class="user-stars allstar(.*?)rating">')
p = re.findall(pattern_s, r.text)
for star in p:
    s += int(star)
print(s)

优惠劵

Poisson_SHAN

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
简易网络爬虫eg

"""'''运用request库进行网页的抓取运用BeautifulSoup库和正则表达式模块进行网页内容的解析'''import requestsfrom bs4 import BeautifulSoupimport re #导入正则表达式s = 0r = requests.get('https://book.douban.com/subject/1084336/')sou...
复制链接

扫一扫