网页数据的获取----相关的Python库

最新推荐文章于 2024-04-30 15:13:13 发布

张同学啦

最新推荐文章于 2024-04-30 15:13:13 发布

阅读量3.6k

点赞数 4

分类专栏： python知识总结文章标签： python html

本文链接：https://blog.csdn.net/m0_53434055/article/details/117464218

版权

python知识总结专栏收录该内容

22 篇文章 5 订阅

订阅专栏

正文

网页数据获取的相关库

Python语言提供了许多与URL和网页处理相关的库，使得Python非常适合网页链接和网页处理。常用的与URL和网页处理相关的库有requests、beautifulsoup4库。
- requests库能够获取网页的源代码，即网页的html文档。
- beautifulsoup4库，也称beautifulSoup库或bs4库，也是python语言获取网络数据常用的第三方库，是解析，遍历html文档标签的功能库，通过解析html文档为用户提供需要获取的数据。
  - 安装：
    pip install requests
    pip install beautifulsoup4
- 学习参考网址

Python爬虫利器二之Beautiful Soup的用法	https:/ /www.cnblogs.com/BigFishFly/p/6380014.html
Python第三方库requests详解	http://www.zhidaow.com/post/python-requests-install-and-brief-introduction

requests库

网页请求函数requests.get() 构造一个请求服务器的request对象，是获取网页内容最常用的方法，其语法为：
r=requests.get(url,params=None, ** kwargs)
其中url表示拟获取网页的url链接，url链接必须采用HTTP或HTTPS方式访问；params表示url中的额外参数，字典或字节流格式，可选；** kwargs表示12个控制访问的参数均为可选，常使用的有参数timeout、headers、cookies。在调用requests.get()函数后，返回的网页内容会保存为一个Response对象r。
Response对象r包含服务器返回的所有返回信息，也包含请求的Request信息，其常用属性如表所示

方法名	使用方法	数据类型	说明
status_code	r.status_code	int	请求的返回状态
text	r.text	str	url对应的页面内容
headers	r.headers	dict	url对应的头信息
content	r.content	bytes	url对应的页面内容的二进制形式
encoding	r.encoding		url对应的页面的编码方式
apparent_encoding	r.apparent_encoding		从内容中分析出的编码方式

【例】使用requests库获取大学计算机网页案例网页源代码。
【代码如下】

import requests    #引入相关库
r=requests.get("http://112.25.158.3:8000/%E5%A4%A7%E5%AD%A6%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%BD%91%E9%A1%B5%E6%A1%88%E4%BE%8B.html")    #获取网页源代码赋值给对象r
r.encoding=r.apparent_encoding    #对r设置编码
print(r.text[90:])    #输出90往后的页面内容

【运行结果】
在这里插入图片描述

将获取网页内容的程序封装为函数，获取网页内容的一般通用框架可以概括为：

import requests    #引入相关库
def getHTMLText(url):
	try:
		r=requests.get(url)
		r.raise_for_status()
		r.ecoding=r.apparent_encoding
		return r.text
	expect:
		r="fail"
		return r

if __name__=="__main__":    #程序的开始
	url=input("请输入网址:")
	#调用函数getHTMLText()获取页面内容赋值text
	text=getHTMLText(url)
	print(text)

beautifulsoup4库

使用HTML文档建立的网页页面一般非常复杂，除了有用的内容信息外，还包括大量用于页面格式的元素，直接解析一个网页需要深入了解HTML语法，比较复杂。 beautifulsoup4库将网页页面格式解析部分封装成函数，提供了若干处理函数获取网页信息。
beautifulsoup4库在使用之前，需要进行引用，由于这个库的名字非常特殊且采用面向对象方式组织，可以用from…import方式从库中直接引用beautifulSoup类，使用方法如下：
from bs4 import BeautifulSoup
soup=BeautifulSoup("< html>A Html Text< /html>",解析器）
构建一个beautifulSoup对象需要两个参数，第一个参数是将要解析的HTML文本字符串，第二个参数告诉beautifulSoup使用哪个解析器来解析HTML,解析器负责把HTML解析成相关的对象，"html.parser"是Python内置的解析器。
BeautifulSoup4将html的源代码转换成一个复杂的树状结构,html的源代码里的每一个标签都是BeautifulSoup对象，如 < head>、< title>、< body>等。html的源代码中的主要结构变成了BeautifulSoup对象的一个个属性，如表所示，BeautifulSoup对象的常用属性，每个属性均为HTML页面里标签元素。

属性	描述
head	HTML页面的< head>内容
title	HTML页面标题，由< title>标记
body	HTML页面的< body>内容
p	HTML页面的第一个< p>内容
strings	HTML页面所有呈现在Web上的字符串
stripped_strings	HTML页面所有呈现在Web上的非空格字符串

BeautifulSoup4对HTML进行解析，获取网页中数据时，通常对不同标签的属性值进行查找，BeautifulSoup中内置了一些查找函数，常用的是find_all()和find()函数。find_all()函数的定义如下：
find_all(tag,attributes,recursive,text,limit,keywords)
其中tag代表标签参数，text表示文本参数，attributes代表标签的属性参数，recursive表示递归参数，limit代表限制参数，keywords代表关键词参数，用于筛选标签的属性。
返回一个列表类型，存储查找的结果

from bs4 import BeautifulSoup    #引入beautifulsoup4库
import requests    #引入requests库
def getHTMLText(url):    #获取网页页面内容函数，获取成功返回页面内容，获取失败，返回"fail"
        try:
            r=requests.get(url)
            r.raise_for_status()
            r.encoding=r.apparent_encoding
            return r.text
        except:
            r="fail"
            return r
def find1(soup):
            h=soup.find_all({"h1","h2"})
            print("输出网页中的标题:")
            for hh in h:
                print(hh)
            print("---------------------------------")
if __name__=="__main__":    #程序的开始
    url="http://112.25.158.3:8000/%E5%A4%A7%E5%AD%A6%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%BD%91%E9%A1%B5%E6%A1%88%E4%BE%8B.html"     #获取网页网址
    text=getHTMLText(url)
    soup=BeautifulSoup(text,'html.parser')    #这里出了一个小插曲,已解决,如果遇到类似问题,可以借鉴一下这篇博客，链接https://blog.csdn.net/matlab001/article/details/83856642
    find1(soup)    #调用函数find1

知识点整理不易，如果能够帮助到你，还请给个免费的赞支持一下哦！😉感谢阅读！

张同学啦

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
网页数据的获取----相关的Python库

目录网页数据获取的相关库request库beautifulsoup4库正文网页数据获取的相关库Python语言提供了许多与URL和网页处理相关的库，使得Python非常适合网页链接和网页处理。常用的与URL和网页处理相关的库有requests、beautifulsoup4库。requests库能够获取网页的源代码，即网页的html文档。beautifulsoup4库，也称beautifulSoup库或bs4库，也是python语言获取网络数据常用的第三方库，是解析，遍历html文档标
复制链接

扫一扫