大三Python选修课时的期末作品,一个简单的Python爬虫小程序,以下记录其源码,思路及运行结果
该作品运用基础Python知识语法进行爬虫程序构建,使用普通途径下载的Python(3.6版本)的IDLE写代码,用到的库有requests库与BeautifulSoup4库,目的是在输入想要查询的图书类型后反馈豆瓣网图书分区相应类型图书书名。
库的安装在文章最后提及。
简单来说,输入一种书的类型,得到豆瓣网内该类型一堆书的书名
简单记录,如有建议,欢迎留言指教!
源码如下:
#输入图书类型抓取豆瓣检索出的图书名称
#https://book.douban.com/tag/%E7%BC%96%E7%A8%8B
import requests
from bs4 import BeautifulSoup
#抓取页面(使用爬虫通用结构代码)
search_style=input('请输入你要查的图书类型(如:通信/编程):')
url0='https://book.douban.com/tag/'
try:
url=url0+search_style
#url='https://book.douban.com/tag/经济学'#测试用url
print('正在抓取',url)
print('-------------------------------------------------------------------')
r=requests.get(url,timeout=30)
r.encoding=r.apparent_encoding
r.raise_for_status()
content=r.text
soup=BeautifulSoup(content,'html.parser')
except:
print('抓取失败,请重试!')
#有用信息输出格式调整及打印
taglist1=[]
taglist2 = soup.select('h2 a')
for t2 in taglist2:
taglist1.append(t2.text)
for t1 in taglist1:
print('《',t1.strip().replace('\n','').replace(' ',''),'》')
print('-------------------------------------------------------------------')
设计思路如下:
查看网页源码,分析标签内容
运行结果图:
库的安装:
1、右键安装的Python下的IDLE程序,选择打开文件所在位置
2、右键IDLE,再次打开文件所在位置
3、打开如上图所示中的Scripts文件夹,并复制其路径,如本图中的“F:\Python\Scripts”
4、使用“Win+R”快捷键并输入“cmd”打开计算机命令窗口,并一条一条输如下代码(此过程需连网)
cd F:\Python\Scripts
pip install requests
pip install BeautifulSoup4
(本人这里已经安装,故而提示已经安装,第一次安装时应有进度条)