一个简单的Python爬虫(带详细步骤)

大三Python选修课时的期末作品,一个简单的Python爬虫小程序,以下记录其源码,思路及运行结果

该作品运用基础Python知识语法进行爬虫程序构建,使用普通途径下载的Python(3.6版本)的IDLE写代码,用到的库有requests库与BeautifulSoup4库,目的是在输入想要查询的图书类型后反馈豆瓣网图书分区相应类型图书书名。

库的安装在文章最后提及。

简单来说,输入一种书的类型,得到豆瓣网内该类型一堆书的书名

简单记录,如有建议,欢迎留言指教!


源码如下:

#输入图书类型抓取豆瓣检索出的图书名称

#https://book.douban.com/tag/%E7%BC%96%E7%A8%8B

import requests

from bs4 import BeautifulSoup

#抓取页面(使用爬虫通用结构代码)

search_style=input('请输入你要查的图书类型(如:通信/编程):')

url0='https://book.douban.com/tag/'

try:

    url=url0+search_style

    #url='https://book.douban.com/tag/经济学'#测试用url

    print('正在抓取',url)

    print('-------------------------------------------------------------------')

    r=requests.get(url,timeout=30)

    r.encoding=r.apparent_encoding

    r.raise_for_status()

    content=r.text

    soup=BeautifulSoup(content,'html.parser')

except:

    print('抓取失败,请重试!')

#有用信息输出格式调整及打印

taglist1=[]

taglist2 = soup.select('h2 a')

for t2 in taglist2:

     taglist1.append(t2.text)

for t1 in taglist1:

    print('《',t1.strip().replace('\n','').replace(' ',''),'》')

    print('-------------------------------------------------------------------')


设计思路如下:

查看网页源码,分析标签内容


运行结果图:


库的安装:

1、右键安装的Python下的IDLE程序,选择打开文件所在位置

2、右键IDLE,再次打开文件所在位置

3、打开如上图所示中的Scripts文件夹,并复制其路径,如本图中的“F:\Python\Scripts”

4、使用“Win+R”快捷键并输入“cmd”打开计算机命令窗口,并一条一条输如下代码(此过程需连网)

cd F:\Python\Scripts

pip install requests

pip install BeautifulSoup4

(本人这里已经安装,故而提示已经安装,第一次安装时应有进度条)

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值