一、HTML解析:Beautifulsoup
1、import
from bs4 import BeautifulSoup
2、初始化
soup=BeautifulSoup(HTMLText,"html.parser")
3、find和find_all
#find_all返回一个bs4.element.Tag对象数组
#find返回bs4.element.Tag对象。
#查找所有div标签
divs=soup.find_all("div")
#查找某个attr(如id)
x=soup.find_all(attrs={"id":"myId"})[0]
x=soup.find(attrs={"id":"myId"})[0]
4、获取属性值或者innerHTML
#属性值读取
attrVal=soup.get("attrName")
#InnerHtml读取
text=soup.get_text()
二、HTML转移符处理:html.parser
import requests
import sys
import os
from bs4 i