简易网络爬虫eg

"""
'''
运用request库进行网页的抓取
运用BeautifulSoup库和正则表达式模块进行网页内容的解析

'''
import requests
from bs4 import BeautifulSoup
import re #导入正则表达式
s = 0
r = requests.get('https://book.douban.com/subject/1084336/')
soup = BeautifulSoup(r.text, 'lxml') #把get到的对象作为参数传入BeautifulSoup函数
pattern = soup.find_all('span', 'short') #用find_all寻找评论所在的行,标签span,属性short
#举例,短评在源码中的格式为<span class="short">我觉得小狐狸跟小王子在搞GAY</span>
for item in pattern:
    print(item.string)


#对于要获取小王子书评的评分,这种细节内容比较适合于正则表达式
#网页解析中最常用正则表达式:(.*?)
#源代码eg:<span class="user-stars allstar(.*?)rating">    
pattern_s = re.compile('<span class="user-stars allstar(.*?)rating">')
p = re.findall(pattern_s, r.text)
for star in p:
    s += int(star)
print(s)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值