借阅书籍python_python&MongoDB爬取图书馆借阅记录

最新推荐文章于 2023-10-26 00:14:55 发布

weixin_39628180

最新推荐文章于 2023-10-26 00:14:55 发布

阅读量695

点赞数

文章标签：借阅书籍python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39628180/article/details/111446344

版权

直接上需求和代码

首先是需要爬取的链接和网页：http://211.81.31.34/uhtbin/cgisirsi/x/0/0/57/49?user_id=LIBSCI_ENGI&password=LIBSC

登陆进去之后进入我的账号——借阅、预约及申请记录——借阅历史就可以看到所要爬取的内容

然后将借阅历史中的题名、著者、借阅日期、归还日期、索书号存入Mongodb数据库中，以上便是这次爬虫的需求。

下面开始：

各软件版本为：

python 2.7.11

MongoDb 3.2.1

Pycharm 5.0.4

MongoDb Management Studio 1.9.3

360极速浏览器懒得查了

一、登陆模块

python中的登陆一般都是用urllib和urllib2这两个模块，首先我们要查看网页的源代码：

借阅证号码:

个人密码:

查找网页中的form表单中的action，方法为post，但是随后我们发现，该网页中的action地址不是一定的，是随机变化的，刷新一下就变成了下面这样子的：

我们可以看到/?ps到/之间的字符串是随机变化的(加粗部分)，于是我们需要用到另一个模块——BeautifulSoup实时获取该链接：

url = "http://211.81.31.34/uhtbin/cgisirsi/x/0/0/57/49?user_id=LIBSCI_ENGI&password=LIBSC"

res = urllib2.urlopen(url).read()

soup = BeautifulSoup(res, "html.parser")

login_url = "http://211.81.31.34" + soup.findAll("form")[1]['action'].encode("utf8")

之后就可以正常使用urllib和urllib来模拟登陆了，下面列举一下BeautifulSoup的常用方法，之后的HTML解析需要：

1.soup.contents 该属性可以将tag的子节点以列表的方式输出

2.soup.children 通过tag的.children生成器，可以对tag的子节点进行循环

3.soup.parent 获取某个元素的父节点

4.soup.find_all(name,attrs,recursive,text,**kwargs) 搜索当前tag的所有tag子节点，并判断是否符合过滤器的条件

5.soup.find_all("a",class="xx") 按CSS搜索

6.find(name,attrs,recursive,text,**kwargs) 可以通过limit和find_all区分开

二、解析所获得的HTML

先看看需求中的HTML的特点：

做人要低调，说话要幽默孙郡铠编著

孙郡铠编著

2015/9/10,16:16

2015/9/23,15:15

B821-49/S65

我用一生去寻找潘石屹的人生哲学潘石屹著

潘

最低0.47元/天解锁文章

weixin_39628180

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
借阅书籍python_python&MongoDB爬取图书馆借阅记录

直接上需求和代码首先是需要爬取的链接和网页：http://211.81.31.34/uhtbin/cgisirsi/x/0/0/57/49?user_id=LIBSCI_ENGI&password=LIBSC登陆进去之后进入我的账号——借阅、预约及申请记录——借阅历史就可以看到所要爬取的内容然后将借阅历史中的题名、著者、借阅日期、归还日期、索书号存入Mongodb数据库中，以上便是这次爬虫...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。