1.初建python文件时,会默认生成下面文件
–init–文件的作用是构造函数或者初始化程序
2.urlib是Python的标准库,包含从网络请求数据,处理cookie,改变像请求头,用户代理这些元数据的函数,同时它也可以用来打开并读取一个从网络获取的远程对象
3.BeautifulSoup库中最常用的就是BeautifulSoup对象(html后面的read方法可有可无)
from urllib.request import urlopen
from bs4 import BeautifulSoup
html=urlopen("http://www.pythonscraping.com/pages/page1.html")
bsObj=BeautifulSoup(html.read())
print(bsObj.h1)
运行结果
<h1>An Interesting Title</h1>
加入检查与错误处理的代码
from urllib.request import urlopen
from urllib.error import HTTPError,URLError
from bs4 import BeautifulSoup
def getTitle(url):
try:
html=urlopen(url)
except(HTTPError,URLError) as e:
return None
try:
bsObj=BeautifulSoup(html.read())