这次介绍urllib库和BeautifulSoup的一些细节用法
只讲如何用和数据处理,如果有些函数不明白什么作用,或者想知道Exception处理请参照前一篇文章:https://blog.csdn.net/qq_36376711/article/details/86614578
urllib为python3自带库,bs4需要cmd下 pip install bs4.如果没有成功基本是你环境变量设置问题或者pip的问题
request部分:
request访问方法一:
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
url可以是字符串或request对象,一般是HTTP/HTTPS链接地址
data一般不用管,目前只有HTTP/HTTPS用到data
timeout指定连接超时时间,只对HTTP,HTTPS,FTP连接生效
可选的cafile和capath参数为HTTPS请求指定一组可信CA证书。
cadefault不用管
context是描述各种SSL选项的ssl.SSLContext实例
from urllib import request
url = "https://docs.python.org/3.7/library/urllib.html"
#urlopen是request库中最简单的访问方法
content = request.urlopen(url)
#显示你访问的url地址
print(content.geturl())
#以email.message_from_string()实例的形式返回页面的元信息,例如标题
#参考:https://docs.python.org/3.7/library/email.parser.html#email.message_from_string
print(content.info())
#html访问成功则返回200
print(content.getcode())
html = content.read().decode("utf-8")
HTTP或HTTPS访问成功会返回一个http.client.HTTPResponse 对象
失败返回exception http.client.HTTPException的一种子类
urllib.request.urlopen() 对应旧版本中的 urllib2.urlopen