Reptile_01 Html网页爬虫(BeautifulSoup模块)

本文介绍如何利用Python的BeautifulSoup库解析HTML,从网页中提取新闻标题和链接。通过requests获取网页源代码,使用BeautifulSoup进行解析,再通过find和find_all方法提取所需数据。
摘要由CSDN通过智能技术生成

BeautifulSoup 主要用来解析和提取Htm网页中的数据

由于BeautifulSoup不是Python标准库,需要单独安装它,我们的学习系统已经安装好了。如果你是在自己的电脑上运行,需要在终端输入一行代码运行:pip install BeautifulSoup4

BeautifulSoup解析数据的用法很简单:

bs对象 = BeautifulSoup(要解析的文本,‘解析器’)

解析器,用的是一个Python内置库:html.parser。(它不是唯一的解析器,但是比较简单的)

Html爬虫步骤

以下以进度新闻为例,爬虫“热点新闻”标题与新闻连接地址

1.获取数据 requests.get(‘URL’)

geturl = requests.get('URL') #获取网页源代码,得到的url是response对象

2.解析数据 BeautifulSoup(geturl.text,‘html.parser’)

text_url = BeautifulSoup(geturl .text,'html.parser') #把网页解析为BeautifulSoup对象

3.提取数据 find()与find_all(),以及Tag对象

find()可以提取出首个元素,而find_all()可以提取出全部
Tag.find()和Tag.find_all()    提取
在这里插入图片描述

pane_news = text_url.find_all('strong') # 通过定位标签和属性提取我们想要的数据

for i in pane_news:  #循环读取pane_news 数据列表
   newlist = i.find('a').text	 #获取新闻标题
   newhref = i.find('a')['href'] #获取连接地址
   print(newlist,newhref)   #打印新闻标题和连接地址
   
打印结果:

在这里插入图片描述
4.存储数据
存储内容说明,点击查看https://blog.csdn.net/weixin_38258289/article/details/99848939

以下为完整代码:

import requests #调用requests库
from bs4 import BeautifulSoup 

#----------获取数据
geturl = requests.get('http://news.baidu.com/') #获取网页源代码,得到的url是response对象

#----------解析数据
text_url = BeautifulSoup(geturl.text,'html.parser') #把网页解析为BeautifulSoup对象

#----------提取数据数据
pane_news = text_url.find_all('strong') # 通过定位标签和属性提取我们想要的数据

for i in pane_news: #循环读取pane_news 数据列表
   newlist = i.find('a').text #获取新闻标题
   newhref = i.find('a')['href'] #获取连接地址
   print(newlist,newhref) #打印新闻标题和连接地址
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

法海爱捉虫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值