爬虫:BeautifulSoup(三)

今天在和大佬聊天的时候,大佬们谈论到最近在知乎上一篇数据分析的文章,关于女性文胸的统计和分析,“用Python抓取某东购买记录并统计MM的bra大小”,虽然没有使用到BeautifulSoup,不过也需要学习一下,嘻嘻。
知乎网站:https://zhuanlan.zhihu.com/p/40487715

这里主要是tag修饰的字符串和注释部分提取

# coding=utf-8

import requests
from bs4 import BeautifulSoup
#字符串常被包含在tag内.Beautiful Soup用 NavigableString 类来包装tag中的字符串:
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>',features="html.parser")
tag = soup.b
print (tag.string)
print(type(tag.string))

#注释及特殊字符串
#Tag , NavigableString , BeautifulSoup 几乎覆盖了html和xml中的所有内容,
# 但是还有一些特殊对象.容易让人担心的内容是文档的注释部分
markup = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"
soup = BeautifulSoup(markup ,features="html.parser")
comment = soup.b.string
print (type(comment))

#Comment 对象是一个特殊类型的 NavigableString 对象:
print(comment)

#但是当它出现在HTML文档中时, Comment 对象会使用特殊的格式输出:
print(soup.b.prettify())
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值