python day3

网络爬虫第二周

W2.1 Beautiful Soup库安装

使用BeautifulSoup库

from bs4 import BeautifulSoup  #BeautifulSoup是一个类
soup = BeautifulSoup("html格式的代码","html.parser") #两个参数:一个是要解析的代码;另一个是解析器——BeautifulSoup有四个解析器


 

上面是从bs4库中引用了一个叫做“BeautifulSoup”的类型。当然也可以直接饮用bs4库

import bs4


认为html文档,标签树和BeautifulSoup类是等价的

也可以用打开文件的方式提供html文档,如下

soup2 = BeautifulSoup(open("D://demo.html"),"html.parser")


BeautifulSoup类有五种基本类型:标签,标签名字,标签属性,标签内字符串和注释

soup.tag #如soup.a 返回标签树中的第一个a标签
soup.a.name #获得a的名字
soup.a.parent.name #获得a父节点的名字
tag = soup.a
tag.attrs #获得标签的属性(这里获得属性似乎类似数组,老师称其为字典)
tag.attrs['class']
type() #用于查询类型(md没学过python的我好累
tag.string #获得标签的内容 可以跨过多个标签类型,获取第一个碰到的内容(估计是)


遍历有下行、上行和平行遍历。

遍历时会用到一种叫迭代类型的,只能用在循环中,循环语句如下

for pars in soup.title.parents:
	print(pars)

——prettify()方法,美化html页面,让页面方便阅读


bs4默认utf8编码

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值