豆瓣读书数据抓取:
目标网址:https://book.douban.com/
目标数据:(1)书名(2)书的链接地址(3)作者(4)发行时间(5)出版社
直接上代码啦
下面展示一些 内联代码片
。
import requests
import re
#伪装浏览器头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:58.0) Gecko/20100101 Firefox/58.0'}
#发送请求
content = requests.get('https://book.douban.com/', headers=headers)
con = content.text
#根据正则表达式选择目标信息
pattern = re.compile('<li.*?cover.*?href="(.*?)title="(.*?)">.*?more-meta.*?author">(.*?)</span>.*?year">('
'.*?)</span>.*?publisher">(.*?)</span>.*?</li>', re.S)
results = re.findall(pattern, con)
#遍历输出
for result in results:
print('书名:'+result[1]+'\n图书链接:'+result[0]+'\n作者:'+result[2].strip()+'\n发行时间:'+result[3]+'\n出版社:'+result[4])
格式不是很好看啦,有时间会完善的嘿嘿