爬虫（五） bs4解析及其应用

最新推荐文章于 2023-12-21 23:40:57 发布

Lin_junhan

最新推荐文章于 2023-12-21 23:40:57 发布

阅读量711

点赞数 1

分类专栏： python 爬虫

本文链接：https://blog.csdn.net/Lin_junhan/article/details/87952618

版权

python 同时被 2 个专栏收录

31 篇文章 0 订阅

订阅专栏

爬虫

13 篇文章 0 订阅

订阅专栏

bs4使用前提：

bs4指的是BeautifulSoup，我们将使用pip来下载bs4相关的第三方库，由于默认的pip源是国外源，这会导致下载出现诸多不稳定现象，因此在使用pip进行下载时，我们要先把pip源设置为国内源，例如阿里源，豆瓣源，网易源等等

下面是在windows和linux下更改pip源的方法：

windows:

（1）打开文件资源管理器

（2）在地址栏上面输入 %appdata%

（3）在这里面新建一个文件夹 pip

（4）在pip文件夹里面新建一个文件叫做 pip.ini ，内容如下：

[global] timeout = 6000

index-url=https://mirrors.aliyun.com/pypi/simple/

trusted-host=mirrors.aliyun.com

linux:

(1) cd ~

(2) mkdir ~/.pip

(3) vi ~/.pip/pip.conf

(4) 编辑内容一样

bs4的使用：

bs4在使用时需要俩个库，一个是bs4

安装方法：

在终端运行：

pip install bs4

简单使用：

说明：选择器，jquery

from bs4 import BeautifulSoup

使用方式：

可以将一个html文档，转化为指定对象，然后通过对象的方法或者属性去查找指定的内容。

（1）转化为本地文件：

soup = BeautifulSoup(open('本地文件'), 'lxml')

（2）转化网络文件：

soup = BeautifulSoup('字符串类型或者字节类型','lxml')

对象（soup）的使用方式：

1. 根据标签名查找：

soup.a

2.获取属性：

soup.a['href'] 获取单个属性

soup.a.attrs 获取所有属性和值，返回一个字典

3.获取内容：

soup.head.string：不能获取包含标签的文本

soup.head.get_text()：

soup.head.text：以上两个可以获取文本内容

4.find：

soup.find('a') 找到第一个符合条件的标签

soup.find('a', title='qin') 可以利用属性进行筛选

只能找到第一个满足条件的标签。

5.find_all：

soup.find_all('a') 找出所有含a的标签

soup,find_all(['a','img']) 传递一个列表，可以将列表中所含的标签都找出来

6.select：

根据选择器选择指定的内容：

常见的选择器：标签选择器，类选择器，id选择器，组合选择器，层级选择器，伪类选择器，属性选择器

.dudu

#lala

a, .dudu, #lala, .meme

div .dudu #lala .meme 下面好多级

div>p>a>.lala 只能是下面一级

input[name='lala']

注意：select 选择器返回永远是列表，需要通过下标提取对象，然后获取属性和节点，该方法也可以通过普通对象调用，找到都是这个对象下面符合要求的所有节点

下面是相关代码示例：

from bs4 import BeautifulSoup

soup = BeautifulSoup(open('renrenwang1.html', encoding='utf8'), 'lxml')
# print(type(soup))
# print(soup.head)
# print(soup.head.string)
# print(soup.head.get_text())
print(soup.head.text)
print(soup.find_all(['a', 'img']))