目录
- 网页数据获取的相关库
- request库
- beautifulsoup4库
正文
网页数据获取的相关库
- Python语言提供了许多与URL和网页处理相关的库,使得Python非常适合网页链接和网页处理。常用的与URL和网页处理相关的库有requests、beautifulsoup4库。
- requests库能够获取网页的源代码,即网页的html文档。
- beautifulsoup4库,也称beautifulSoup库或bs4库,也是python语言获取网络数据常用的第三方库,是解析,遍历html文档标签的功能库,通过解析html文档为用户提供需要获取的数据。
- 安装:
pip install requests
pip install beautifulsoup4
- 安装:
- 学习参考网址
Python爬虫利器二之Beautiful Soup的用法 | https:/ /www.cnblogs.com/BigFishFly/p/6380014.html |
---|---|
Python第三方库requests详解 | http://www.zhidaow.com/post/python-requests-install-and-brief-introduction |
requests库
- 网页请求函数requests.get() 构造一个请求服务器的request对象,是获取网页内容最常用的方法,其语法为:
- r=requests.get(url,params=None, ** kwargs)
- 其中url表示拟获取网页的url链接,url链接必须采用HTTP或HTTPS方式访问;params表示url中的额外参数,字典或字节流格式,可选;** kwargs表示12个控制访问的参数均为可选,常使用的有参数timeout、headers、cookies。在调用requests.get()函数后,返回的网页内容会保存为一个Response对象r。
- Response对象r包含服务器返回的所有返回信息,也包含请求的Request信息,其常用属性如表所示
方法名 | 使用方法 | 数据类型 | 说明 |
---|---|---|---|
status_code | r.status_code | int | 请求的返回状态 |
text | r.text | str | url对应的页面内容 |
headers | r.headers | dict | url对应的头信息 |
content | r.content | bytes | url对应的页面内容的二进制形式 |
encoding | r.encoding | url对应的页面的编码方式 | |
apparent_encoding | r.apparent_encoding | 从内容中分析出的编码方式 |
【例】使用requests库获取大学计算机网页案例网页源代码。
【代码如下】
import requests #引入相关库
r=requests.get("http://112.25.158.3:8000/%E5%A4%A7%E5%AD%A6%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%BD%91%E9%A1%B5%E6%A1%88%E4%BE%8B.html") #获取网页源代码赋值给对象r
r.encoding=r.apparent_encoding #对r设置编码
print(r.text[90:]) #输出90往后的页面内容
【运行结果】
- 将获取网页内容的程序封装为函数,获取网页内容的一般通用框架可以概括为:
import requests #引入相关库
def getHTMLText(url):
try:
r=requests.get(url)
r.raise_for_status()
r.ecoding=r.apparent_encoding
return r.text
expect:
r="fail"
return r
if __name__=="__main__": #程序的开始
url=input("请输入网址:")
#调用函数getHTMLText()获取页面内容赋值text
text=getHTMLText(url)
print(text)
beautifulsoup4库
-
使用HTML文档建立的网页页面一般非常复杂,除了有用的内容信息外,还包括大量用于页面格式的元素,直接解析一个网页需要深入了解HTML语法,比较复杂。 beautifulsoup4库将网页页面格式解析部分封装成函数,提供了若干处理函数获取网页信息。
-
beautifulsoup4库在使用之前,需要进行引用,由于这个库的名字非常特殊且采用面向对象方式组织,可以用from…import方式从库中直接引用beautifulSoup类,使用方法如下:
from bs4 import BeautifulSoup
soup=BeautifulSoup("< html>A Html Text< /html>",解析器) -
构建一个beautifulSoup对象需要两个参数,第一个参数是将要解析的HTML文本字符串,第二个参数告诉beautifulSoup使用哪个解析器来解析HTML,解析器负责把HTML解析成相关的对象,"html.parser"是Python内置的解析器。
-
BeautifulSoup4将html的源代码转换成一个复杂的树状结构,html的源代码里的每一个标签都是BeautifulSoup对象,如 < head>、< title>、< body>等。html的源代码中的主要结构变成了BeautifulSoup对象的一个个属性,如表所示,BeautifulSoup对象的常用属性,每个属性均为HTML页面里标签元素。
属性 | 描述 |
---|---|
head | HTML页面的< head>内容 |
title | HTML页面标题,由< title>标记 |
body | HTML页面的< body>内容 |
p | HTML页面的第一个< p>内容 |
strings | HTML页面所有呈现在Web上的字符串 |
stripped_strings | HTML页面所有呈现在Web上的非空格字符串 |
- BeautifulSoup4对HTML进行解析,获取网页中数据时,通常对不同标签的属性值进行查找,BeautifulSoup中内置了一些查找函数,常用的是find_all()和find()函数。find_all()函数的定义如下:
find_all(tag,attributes,recursive,text,limit,keywords)
其中tag代表标签参数,text表示文本参数,attributes代表标签的属性参数,recursive表示递归参数,limit代表限制参数,keywords代表关键词参数,用于筛选标签的属性。
返回一个列表类型,存储查找的结果
from bs4 import BeautifulSoup #引入beautifulsoup4库
import requests #引入requests库
def getHTMLText(url): #获取网页页面内容函数,获取成功返回页面内容,获取失败,返回"fail"
try:
r=requests.get(url)
r.raise_for_status()
r.encoding=r.apparent_encoding
return r.text
except:
r="fail"
return r
def find1(soup):
h=soup.find_all({"h1","h2"})
print("输出网页中的标题:")
for hh in h:
print(hh)
print("---------------------------------")
if __name__=="__main__": #程序的开始
url="http://112.25.158.3:8000/%E5%A4%A7%E5%AD%A6%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%BD%91%E9%A1%B5%E6%A1%88%E4%BE%8B.html" #获取网页网址
text=getHTMLText(url)
soup=BeautifulSoup(text,'html.parser') #这里出了一个小插曲,已解决,如果遇到类似问题,可以借鉴一下这篇博客,链接https://blog.csdn.net/matlab001/article/details/83856642
find1(soup) #调用函数find1
知识点整理不易,如果能够帮助到你,还请给个免费的赞支持一下哦!😉感谢阅读!