爬虫_bs4

最新推荐文章于 2023-08-09 19:19:46 发布

SLASH_W1

最新推荐文章于 2023-08-09 19:19:46 发布

阅读量675

点赞数

分类专栏： python 爬虫文章标签：爬虫 python

本文链接：https://blog.csdn.net/qq_45086757/article/details/122292936

版权

python 同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

爬虫

12 篇文章 0 订阅

订阅专栏

数据解析原理：

标签定位；提取标签、标签属性中存储的数据值。

bs4进行数据解析的原理：

实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中；通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取

环境安装：

BeautifulSoup存在于bs4这个模块中，所以要先安装bs4，同理安装lxml是一个解析器

如何实例化BeautifulSoup对象：
（1）from bs4 import BeautifulSoup
（2）对象实例化：
将本地的html文档中的数据加载到该对象中；
fp=open(‘html文件名’,‘r’,encoding=‘utf-8’)
soup=BeautifulSoup(fp,‘lxml’)
将互联网上获取的页面源码加载到该对象中（常用的）
page_text=response.text
soup=BeautifulSoup(page_text,‘lxml’)
（3）提供用于数据解析的方法和属性
soup.tagName 返回的是html中第一次出现的tagName标签
soup.find() find(‘tagName’):等同于soup.div
属性定位：soup.find(‘标签名’,class_=‘具体属性名’)
soup.find_all(‘tagName’)：返回符合要求的所有标签（列表）
select(‘某种选择器（id,class,标签…选择器）’)，返回的是一个列表
层级选择器：
soup.select(’.t>div>li>a’) >表示的是一个层级
soup.select(.t>ul a’) 空格表示多个层级
（4）获取标签之间的文本数据： soup.a.text/string/get_text()
text/get_text()：可以获取某一个标签中所有的文本内容
string：只可以获取该标签下面的直系文本内容

（5）获取标签中属性值：soup.a[‘href’]
即获取的是href后面的蓝字部分
bs4应用
本次应用案例是有关诗词名句网站，三国演义的爬取，要将其每一回的题目和单击题目之后的详情页一并抓取。

具体爬取流程讲解写入注释，请看代码理解即可，这里顺便将作者学习视频链接送上
代码块

import requests
from bs4 import BeautifulSoup
# 对首页页面进行抓取
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36'
}
url='http://www.shicimingju.com/book/sanguoyanyi.html'
page_text=requests.get(url=url,headers=headers).text.encode('iso-8859-1')    # .encode('iso-8859-1')一定要记得加，否则出现乱码结果
# 在首页中解析出章节的标题和详情页的url
# 1.实例化BeautifulSoup对象，需要将页面源码数据加载到该对象中
soup=BeautifulSoup(page_text,'lxml')
#print(page_text.apparent_encoding)
# 解析章节标题和详情页的url
li_list=soup.select('.book-mulu>ul>li')
fp=open('.sanguo.txt','w',encoding='utf-8')
for li in li_list:
    title=li.a.string
    # 详情页url的拼接
    detail_url='https://www.shicimingju.com/'+li.a['href']
    # 对详情页发起请求，解析出章节内容
    detail_page_text=requests.get(url=detail_url,headers=headers).text.encode('iso-8859-1')
    # 解析出详情页中相关的章节内容
    detail_soup=BeautifulSoup(detail_page_text,'lxml')
    div_tag=detail_soup.find('div',class_='chapter_content')
    # 解析到了章节的内容
    content=div_tag.text
    fp.write(title+':'+content+'\n')
    print(title,'抓取完成！')

结果展示

一百二十回全部拿下，只能说一句辛苦服务器了！！！

SLASH_W1

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
爬虫_bs4

数据解析原理：标签定位；提取标签、标签属性中存储的数据值。bs4进行数据解析的原理：实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中；通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取环境安装：BeautifulSoup存在于bs4这个模块中，所以要先安装bs4，同理安装lxml是一个解析器如何实例化BeautifulSoup对象：（1）from bs4 import BeautifulSoup（2）对象实例化：将本地.
复制链接

扫一扫