Reptile_01 Html网页爬虫(BeautifulSoup模块)

最新推荐文章于 2021-09-25 18:17:29 发布

法海爱捉虫

最新推荐文章于 2021-09-25 18:17:29 发布

阅读量326

点赞数

分类专栏： Python 爬虫文章标签： Html网页爬虫(BeautifulSoup模块)

本文链接：https://blog.csdn.net/weixin_38258289/article/details/99718451

版权

Python 爬虫专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本文介绍如何利用Python的BeautifulSoup库解析HTML，从网页中提取新闻标题和链接。通过requests获取网页源代码，使用BeautifulSoup进行解析，再通过find和find_all方法提取所需数据。

摘要由CSDN通过智能技术生成

BeautifulSoup 主要用来解析和提取Htm网页中的数据

由于BeautifulSoup不是Python标准库，需要单独安装它，我们的学习系统已经安装好了。如果你是在自己的电脑上运行，需要在终端输入一行代码运行：pip install BeautifulSoup4

BeautifulSoup解析数据的用法很简单：

bs对象 = BeautifulSoup(要解析的文本，‘解析器’)

解析器，用的是一个Python内置库：html.parser。（它不是唯一的解析器，但是比较简单的）

Html爬虫步骤

以下以进度新闻为例，爬虫“热点新闻”标题与新闻连接地址

1.获取数据 requests.get(‘URL’)

geturl = requests.get('URL') #获取网页源代码，得到的url是response对象

2.解析数据 BeautifulSoup(geturl.text,‘html.parser’)

text_url = BeautifulSoup(geturl .text,'html.parser') #把网页解析为BeautifulSoup对象

3.提取数据 find()与find_all()，以及Tag对象

find()可以提取出首个元素，而find_all()可以提取出全部
Tag.find()和Tag.find_all() 提取
在这里插入图片描述

pane_news = text_url.find_all('strong') # 通过定位标签和属性提取我们想要的数据

for i in pane_news:  #循环读取pane_news 数据列表
   newlist = i.find('a').text	 #获取新闻标题
   newhref = i.find('a')['href'] #获取连接地址
   print(newlist,newhref)   #打印新闻标题和连接地址
   
打印结果：

在这里插入图片描述
4.存储数据
存储内容说明，点击查看https://blog.csdn.net/weixin_38258289/article/details/99848939

以下为完整代码：

import requests #调用requests库
from bs4 import BeautifulSoup 

#----------获取数据
geturl = requests.get('http://news.baidu.com/') #获取网页源代码，得到的url是response对象

#----------解析数据
text_url = BeautifulSoup(geturl.text,'html.parser') #把网页解析为BeautifulSoup对象

#----------提取数据数据
pane_news = text_url.find_all('strong') # 通过定位标签和属性提取我们想要的数据

for i in pane_news: #循环读取pane_news 数据列表
   newlist = i.find('a').text #获取新闻标题
   newhref = i.find('a')['href'] #获取连接地址
   print(newlist,newhref) #打印新闻标题和连接地址