2024年Python爬虫解析网页内容_python分析网页

最新推荐文章于 2024-05-08 16:31:25 发布

2401_84562529

最新推荐文章于 2024-05-08 16:31:25 发布

阅读量851

点赞数 27

分类专栏：程序员文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/2401_84562529/article/details/138372395

版权

程序员专栏收录该内容

192 篇文章 1 订阅

订阅专栏

url = ‘https://example.com’
response = requests.get(url)
html_content = response.text

创建BeautifulSoup对象

soup = BeautifulSoup(html_content, ‘html.parser’)

解析网页内容

title_tag = soup.find(‘title’)
print(‘网页标题:’, title_tag.text)

查找所有的标签，并提取链接和文本内容

a_tags = soup.find_all(‘a’)
for a_tag in a_tags:
print(‘链接:’, a_tag[‘href’])
print(‘文本:’, a_tag.text)


在上面的例子中，我们首先使用`requests`模块发起请求，获取网页的HTML内容。然后，我们使用`BeautifulSoup()`方法创建一个BeautifulSoup对象，传入网页的HTML内容和解析器类型。在这个例子中，我们使用了`html.parser`解析器。


接下来，我们使用`find()`方法查找网页中的`<title>`标签，并使用`text`属性获取标签内的文本内容。然后，我们使用`find_all()`方法查找所有的`<a>`标签，并使用循环遍历打印每个标签的链接和文本内容。


除了查找标签和提取文本内容，我们还可以根据标签的属性来查找内容。例如，我们可以使用`find_all()`方法的`attrs`参数来指定属性和属性值。

查找class属性为"intro"的
标签

div_tags = soup.find_all(‘div’, attrs={‘class’: ‘intro’})
for div_tag in div_tags:
print(div_tag.text)


在上面的例子中，我们使用`find_all()`方法的`attrs`参数来查找class属性为"intro"的`<div>`标签，并使用循环遍历打印每个标签的文本内容。


### 案例


案例1：解析天气预报  
 假设我们需要获取某个城市的天气预报信息，我们可以使用Python爬虫和BeautifulSoup库来解析相关网页内容。以下是一个简单的例子：

from bs4 import BeautifulSoup
import requests

发起请求，获取天气预报网页内容

url = ‘https://www.xxxx.com’
response = requests.get(url)
html_content = response.text

创建BeautifulSoup对象

soup = BeautifulSoup(html_content, ‘html.parser’)

解析天气预报网页内容

forecast_tag = soup.find(‘div’, attrs={‘class’: ‘forecast’})
print(‘天气预报:’, forecast_tag.text)


在上面的例子中，我们使用`requests`模块发起请求，获取天气预报网页的HTML内容。然后，我们使用`BeautifulSoup()`方法创建一个BeautifulSoup对象，传入网页的HTML内容和解析器类型。接下来，我们使用`find()`方法查找class属性为"forecast"的`<div>`标签，并使用`text`属性获取标签内的文本内容，即天气预报信息。


案例2：解析新闻标题和链接  
 假设我们需要获取某个新闻网站上的新闻标题和链接，我们同样可以使用Python爬虫和BeautifulSoup库来解析相关网页内容。以下是一个简单的例子：

from bs4 import BeautifulSoup
import requests

发起请求，获取新闻网页内容

url = ‘https://www.xxxx.com’
response = requests.get(url)
html_content = response.text

创建BeautifulSoup对象

soup = BeautifulSoup(html_content, ‘html.parser’)

解析新闻网页内容

news_tags = soup.find_all(‘a’, attrs={‘class’: ‘news-link’})
for news_tag in news_tags:
title = news_tag.text
link = news_tag[‘href’]
print(‘标题:’, title)
print(‘链接:’, link)

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

二、Python必备开发工具

工具都帮大家整理好了，安装就可直接上手！

三、最新Python学习笔记

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

四、Python视频合集

观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

五、实战案例

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

六、面试宝典

在这里插入图片描述

简历模板

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

2401_84562529

关注

27
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
2024年Python爬虫解析网页内容_python分析网页

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。print(‘链接:’, a_tag[‘href’])
复制链接

扫一扫