自上次成功尝试爬取了静态页面的图片之后,本白又跟着另一篇博文做了一下爬取网页文本的尝试。基本代码都是来源于该篇博文,本人只是做了轻微修改。
以python3为背景,这里还是先定义一个读取html页面信息的函数:
import urllib.request
def getHtml(url):
page = urllib.request.urlopen(url) #打开url地址
html = page.read().decode('utf-8') #读取html页面数据
return html
下面定义了一个获取网页文本的函数
def getWor