requests,bs4

最新推荐文章于 2022-03-18 23:06:13 发布

feiniugu

最新推荐文章于 2022-03-18 23:06:13 发布

阅读量98

点赞数

本文链接：https://blog.csdn.net/feiniugu/article/details/104542513

版权

import requests

url_re = “http://www.baidu.com”
hd = {
‘User-Agent’ : ‘Mozilla/5.0 (4Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36’
}

kv = {“key1”: “value1”, “key2”: “value2”}

res = requests.request(“GET”, url_re, headers=hd)
res = requests.request(“GET”, url-_re, params=kv) # 将字典作为参数添加到url中 http://www.baidu.com/?key1=value1&key2=value2
res = requests.request(“GET”,url_re, data = kv) #将字典作为数据存在request的内容存储，不添加在url中
res = requests.request(“GET”, url_re, json = kv) #将字曲作为requests的内容提交

res = requests.request(“GET”, url_re, cokkies = CookieJar)
res = requests.request(“GET”, url_re, timeout = 30 )
res = requests.request(“GET”, url_re, auth = (“user”,“password”)) #支持HTTP认证功能
res = requests.request(“GET”, url_re, allow_redirects = True) #不允许重定向
res = requests.request(“GET”, url_re, stream = True) #获取的内容不立即下载
res = requests.request(“GET”, url_re, verify = True) #认证SSL证书字段
res = requests.request(“GET”, url_re, cert = “/…/…”) #保存本地SSL证书路径

fs = {“file” : open(“data.txt”, “rb”)}
res = requests.request(“GET”, url_re, files = fs) #上传文件

pxs = {‘http’: ‘http://username:password@192.168.1.3:7777’, ‘https’: ‘https://192.168.2.4:8888’}
res = requests.request(“GET”, url_re, proxies=pxs)

res.text #获取到的网页内容

from bs4 import BeautifulSoup

html = " "
soup = BeautifulSoup(html,‘lxml’) #传入解释器：lxml
soup.prettify() #格式化代码，自动补全

#标签选择器
soup.title #选择了标签 soup.title.string #得到具体标签<title>里的内容 soup.title.name #获取标签<title>的名称 suop.p.attrs[‘name’] #获取标签的属性name suop.p[‘name’] #获取标签的属性name soup.p.children #获取标签的子节点和索引，迭代器对象 soup.p.contents #获取标签的子节点，列表 soup.p.descontents #获取标签的子孙节点，列表 soup.p.parent #获取标签的父节点，列表 soup.p.parents #获取标签的祖父节点，列表

#标准选择器find_all(name,attrs,recursive,text,**kwargs)
soup.find_all(‘ul’) #查找所有

标签和下面的内容，列表
soup.find_all(attrs={‘id’:‘myid’}) #查找属性为字典的所有标签和下面的内容，列表
soup.find_all(text=‘foo’) #找出foo文本，返回找出的文本
soup.find(class_=‘classname’) #找到第一个符合的标答和内容

soup.find(‘ul’).find_next() #返回节点后的第一个节点
soup.find(‘ul’).find_all_next() #返回节点后的所有节点
soup.find(‘ul’).find_previous() #返回节点前的第一个节点
soup.find(‘ul’).find_all_previous() #返回节点前的所有节点
soup.find(‘ul’).find_next_sibling() #返回节点后的第一个兄弟节点
soup.find(‘ul’).find_next_siblings() #返回节点后的所有兄弟节点
soup.find(‘ul’).find_previous_sibling() #返回节点前的第一个兄弟节点
soup.find(‘ul’).find_previous_siblings() #返回节点前的所有兄弟节点
soup.find(‘ul’).find_parent() #返回节点的直接父节点
soup.find(‘ul’).find_parents() #返回节点的所有祖父节点

CSS选择器

soup.select(’.panel ul li #list-1’) # .为class #为id 表示4个层级关系

feiniugu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
requests,bs4

import requestsurl_re = “http://www.baidu.com”hd = {‘User-Agent’ : ‘Mozilla/5.0 (4Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36’}kv ...
复制链接

扫一扫