import requests
url_re = “http://www.baidu.com”
hd = {
‘User-Agent’ : ‘Mozilla/5.0 (4Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36’
}
kv = {“key1”: “value1”, “key2”: “value2”}
res = requests.request(“GET”, url_re, headers=hd)
res = requests.request(“GET”, url-_re, params=kv) # 将字典作为参数添加到url中 http://www.baidu.com/?key1=value1&key2=value2
res = requests.request(“GET”,url_re, data = kv) #将字典作为数据存在request的内容存储,不添加在url中
res = requests.request(“GET”, url_re, json = kv) #将字曲作为requests的内容提交
res = requests.request(“GET”, url_re, cokkies = CookieJar)
res = requests.request(“GET”, url_re, timeout = 30 )
res = requests.request(“GET”, url_re, auth = (“user”,“password”)) #支持HTTP认证功能
res = requests.request(“GET”, url_re, allow_redirects = True) #不允许重定向
res = requests.request(“GET”, url_re, stream = True) #获取的内容不立即下载
res = requests.request(“GET”, url_re, verify = True) #认证SSL证书字段
res = requests.request(“GET”, url_re, cert = “/…/…”) #保存本地SSL证书路径
fs = {“file” : open(“data.txt”, “rb”)}
res = requests.request(“GET”, url_re, files = fs) #上传文件
pxs = {‘http’: ‘http://username:password@192.168.1.3:7777’, ‘https’: ‘https://192.168.2.4:8888’}
res = requests.request(“GET”, url_re, proxies=pxs)
res.text #获取到的网页内容
from bs4 import BeautifulSoup
html = " "
soup = BeautifulSoup(html,‘lxml’) #传入解释器:lxml
soup.prettify() #格式化代码,自动补全
#标签选择器
soup.title #选择了标签
#标准选择器find_all(name,attrs,recursive,text,**kwargs)
soup.find_all(‘ul’) #查找所有
-
标签和下面的内容,列表
soup.find_all(attrs={‘id’:‘myid’}) #查找属性为字典的所有标签和下面的内容,列表
soup.find_all(text=‘foo’) #找出foo文本,返回找出的文本
soup.find(class_=‘classname’) #找到第一个符合的标答和内容
soup.find(‘ul’).find_next() #返回节点后的第一个节点
soup.find(‘ul’).find_all_next() #返回节点后的所有节点
soup.find(‘ul’).find_previous() #返回节点前的第一个节点
soup.find(‘ul’).find_all_previous() #返回节点前的所有节点
soup.find(‘ul’).find_next_sibling() #返回节点后的第一个兄弟节点
soup.find(‘ul’).find_next_siblings() #返回节点后的所有兄弟节点
soup.find(‘ul’).find_previous_sibling() #返回节点前的第一个兄弟节点
soup.find(‘ul’).find_previous_siblings() #返回节点前的所有兄弟节点
soup.find(‘ul’).find_parent() #返回节点的直接父节点
soup.find(‘ul’).find_parents() #返回节点的所有祖父节点
CSS选择器
soup.select(’.panel ul li #list-1’) # .为class #为id 表示4个层级关系