爬取网页中的出版社名称
import urllib.request #导入模块
data=urllib.request.urlopen("https://read.douban.com/provider/all").read()
data=data.decode("utf-8") #解码
import re #导入正则表达式模块
pat='<div class="name">(.*?)</div>' #根据网页源代码编写正则表达式
rst=re.compile(pat).findall(str(data))
print(rst)
fh=open("F:/file.txt","w") #将爬取内容写入文件中
for i in range(0,len(rst)):
fh.write(rst[i]+"\n") #换行显示
fh.close() #关闭(保存)文件
结果: