python 之 BeautifulSoup 常用提取

一、bs4信息提取后返回的数据类型

soup.find('tbody')            ---> 返回结构是一个bs4.element.Tag

soup.find('tbody').children   ---> 返回结果是一个 list.iter



二、 常用查找之soup.find_all(), soup.find_all().children,soup.find()信息提取

举例标签:

<tbody>
    <tr>
        <td>1<td>
        <td>清华大学<td>
        <td>北京市<td>
        <td>98.00<td>
        <td>100.00<td>
        <td>-1<td>
    <tr>
</tbody>


(1)查找html中所有'tbody'标签;

>>>> soup.find_all('tbody')


(2)查找html中tbody标签的所有<tr>子标签,是所有的<tr>。

>>>> soup.find('tbody').children


(3)查找html文档中第一个tbody标签

>>>> soup.find('tbody')



三、 常用查找之"名称"、"属性"、"字符串"信息提取

举例标签:

<img src = 'http://www.abc.com/123.jpg'>

 

(1) tag.name
>>>> 标签名称提取

(2) tag.get('attrs')    

>>>> tag标签中属性内容提取,比如图片链接提取:

>>>> for x in soup.find_all('img'):
         x.get('src')

 
(3)tag.string
>>>> tag标签中所有字符串提取。

转载于:https://www.cnblogs.com/my1e3/p/6649419.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
当然可以!Python中最常用的库之一就是BeautifulSoup,它是一个用于解析HTML和XML文件的库,非常适合爬取网页数据。下面我将给你一个简单的例子来讲解如何使用BeautifulSoup进行爬取。 首先,你需要安装BeautifulSoup库。你可以使用以下命令来安装: ``` pip install beautifulsoup4 ``` 安装完成后,你就可以在Python脚本中导入BeautifulSoup了: ```python from bs4 import BeautifulSoup ``` 接下来,你需要获取网页的内容。你可以使用Python的requests库来发送HTTP请求并获取网页的HTML内容。以下是一个示例: ```python import requests # 发送HTTP请求获取网页内容 response = requests.get('http://example.com') html_content = response.text # 创建BeautifulSoup对象,并指定解析器 soup = BeautifulSoup(html_content, 'html.parser') ``` 现在,你已经成功获取了网页的内容并创建了BeautifulSoup对象。接下来,你可以使用BeautifulSoup提供的方法和属性来提取所需的数据。 例如,如果你想找到所有的链接,你可以使用`find_all`方法,并指定标签名称为`a`: ```python links = soup.find_all('a') for link in links: print(link['href']) ``` 如果你只想找到第一个符合条件的元素,可以使用`find`方法: ```python title = soup.find('h1') print(title.text) ``` 除了使用标签名称,你还可以使用CSS选择器来查找元素。例如,如果你想找到所有class为"content"的div元素,可以使用以下代码: ```python divs = soup.select('div.content') for div in divs: print(div.text) ``` 以上就是使用BeautifulSoup进行简单的网页爬取的基本步骤和示例。希望能帮助到你!如果你还有其他问题,请随时提问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值