课堂上老师布置了一个作业,如下图所示:
就是简单写一个借书系统。
大概想了一下流程,登录——>验证登录信息——>登录成功跳转借书界面——>可查看自己的借阅书籍以及数量。。。
登录可以很快实现,但借书界面里的数据怎么来呢?
不可能百度搜索书籍信息,然后一条一条来复制粘贴吧
所以,我想到了Python。
思路:通过Python爬取指定某读数平台,然后将解析的数据直接存到数据库。
URL:https://weread.qq.com/
打开开发者工具,我们可以很快锁定所要爬取的信息;
学过jQuery解析库的,可以发现用pyquery库选择对应class属性,可以很快获取到需要的信息;
拿到数据后,使用pymysql将数据存入数据库,需要提前创建好数据库和表噢,当然也可以用代码实现;
↓
因为该读数平台的书籍信息是动态加载,所以一次可以爬20条,但可以通过循环index,来获取多条数据。或者,也可以通过selenium库来实现网页加载自动化,从而拿到所有数据。
# -*- coding=utf-8 -*-
from pyquery import PyQuery
import requests
import pymysql
header = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
"AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36"
}
# 获取html源码
def getUrl(url):