Python简单爬取图书信息及入库

最新推荐文章于 2024-07-03 17:49:04 发布

和煦的糖果风`

最新推荐文章于 2024-07-03 17:49:04 发布

阅读量1.8k

点赞数 1

分类专栏： PythonCrawler 文章标签： python

本文链接：https://blog.csdn.net/m0_51460728/article/details/122267449

版权

本文介绍了如何使用Python爬虫从指定阅读平台抓取书籍信息，并利用pyquery解析数据，再通过pymysql将数据存入数据库。过程中提到了动态加载页面的处理方法，以及使用selenium进行自动化加载的可能性。最后，简单展示了前端界面。

摘要由CSDN通过智能技术生成

课堂上老师布置了一个作业，如下图所示：

就是简单写一个借书系统。

大概想了一下流程，登录——>验证登录信息——>登录成功跳转借书界面——>可查看自己的借阅书籍以及数量。。。

登录可以很快实现，但借书界面里的数据怎么来呢？

不可能百度搜索书籍信息，然后一条一条来复制粘贴吧

所以，我想到了Python。

思路：通过Python爬取指定某读数平台，然后将解析的数据直接存到数据库。

URL：https://weread.qq.com/

打开开发者工具，我们可以很快锁定所要爬取的信息；

学过jQuery解析库的，可以发现用pyquery库选择对应class属性，可以很快获取到需要的信息；

拿到数据后，使用pymysql将数据存入数据库，需要提前创建好数据库和表噢，当然也可以用代码实现；

↓

因为该读数平台的书籍信息是动态加载，所以一次可以爬20条，但可以通过循环index，来获取多条数据。或者，也可以通过selenium库来实现网页加载自动化，从而拿到所有数据。

# -*- coding=utf-8 -*-
from pyquery import PyQuery
import requests
import pymysql

header = {
   
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
                  "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36"
}


# 获取html源码
def getUrl(url):