给定需求:利用Python爬虫爬取豆瓣网的编程类首页书籍的名称并打印出来
问题分析:分三步骤实现获取网页内容、提取信息到列表中和输出结果。
(1)步骤1:从网络上获取编程书籍网页内容
(2)步骤2:提取网页内容中的书籍名称信息到列表中
(3)步骤3:利用数据结构展示并输出结果
代码实现:
import requests
from bs4 import BeautifulSoup
def getHTMLText(url):
try:
kv = {'user-agent':'Mozilla/5.0'}
r = requests.get(url,headers=kv)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "产生异常"
def fillBookList(blist,html):
soup = BeautifulSoup(html,"html.parser")
for i in soup.find_all('a'):
if i.get('title') == None:
pass
else:
blist.append(i.get('title'))
def printBookList(blist,num):
print("{}".format("图书名称"))
for i in range(num):
b = blist[i]
print("{}".format(b))
def main():
binfo = []
url = "https://book.douban.com/tag/%E7%BC%96%E7%A8%8B"
html = getHTMLText(url)
fillBookList(binfo,html)
printBookList(binfo,20)
main()
参考资料:中国大学MOOC精品课程《Python网络爬虫与信息提取》