Python爬虫使用bs4

bs可以解析本地文件也可以解析服务器文件

节点定位:

        1.根据标签名查找节点

                soup.a 只能查找第一个

                soup.a.name

        2.函数

                1..find返回一个对象

                2..find_all 返回一个列表

                3..select根据选择器得到对象

                        3.1直接写element

                        3.2.class

                                用.来表示 class

                        3.3 用#选择id

                4.层级选择器

                空格 代表后代

                大于 代表第一级子标签 记得加空格

                等于 

        节点信息

        1.获取节点内容

        obj.string

        obj.get_text()

        2.节点的属性

        tag.name 获取标签名

        3.获取节点属性

        obj.attrs.get('title')

        obj.get('title')

        obj.['title']

                

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("a.html", encoding="utf-8"), 'lxml')
print(soup.p)
print(soup.p.attrs)
# find函数--返回第一个符合条件的数据
print(soup.find('p'))
print(soup.find('p', class_="a1"))
# find_all函数
print('----')
print(soup.find_all('p'))
# select函数
# select方法返回的是一个列表,并且返回多个数据
# 可以通过.代表class,这种叫类选择器
print(soup.select('.p'))
print(soup.select('#q'))
# 属性选择器,查找p中有id的标签
print('1', soup.select('p[id="q"]'))

  • 7
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值