from bs4 import BeautifulSoup#引入库
import requests
r=requests.get('http://www.baidu.com').content
soup=BeautifulSoup(r,'html.parser')#还有其他的解析方式
soup.text#文本
soup.title#标题
soup.has_attr('')#是否有某个属性
soup.a.attrs#显示所有属性
soup.a.attrs['href']#制定特定属性
soup.meta.attrs #
soup.a.get('href')#'http://news.baidu.com'
soup.a.get('class')#['mnav']
soup.a['href']='www.baidu.com'#进行修改,怎么保存我不知道了。
#直接保存就好soup 就好
soup.find_all('a',string=compile('(www)|(http).*?skwjg.*?com'))) 可以用正则表达式匹配内容
soup.find_all('a', class_="sister")
soup.find_all(text='story')
logo_left=soup.select('.logo_left a img') #返回列表对列表进行循环 得到各个属性。
for img in logo_left:
img_url='http://photos.sdgcbbs.com/img/'+imglist[i2]+'/logo.jpg'
r=re.sub(img['src'],imgchane(img_url),r)