Python简单爬取图书信息及入库

课堂上老师布置了一个作业,如下图所示:


就是简单写一个借书系统。

大概想了一下流程,登录——>验证登录信息——>登录成功跳转借书界面——>可查看自己的借阅书籍以及数量。。。

登录可以很快实现,但借书界面里的数据怎么来呢?

不可能百度搜索书籍信息,然后一条一条来复制粘贴吧

所以,我想到了Python。

思路:通过Python爬取指定某读数平台,然后将解析的数据直接存到数据库。

URL:https://weread.qq.com/

打开开发者工具,我们可以很快锁定所要爬取的信息;

学过jQuery解析库的,可以发现用pyquery库选择对应class属性,可以很快获取到需要的信息;

拿到数据后,使用pymysql将数据存入数据库,需要提前创建好数据库和表噢,当然也可以用代码实现;


因为该读数平台的书籍信息是动态加载,所以一次可以爬20条,但可以通过循环index,来获取多条数据。或者,也可以通过selenium库来实现网页加载自动化,从而拿到所有数据。

# -*- coding=utf-8 -*-
from pyquery import PyQuery
import requests
import pymysql

header = {
   
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
                  "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36"
}


# 获取html源码
def getUrl(url):
  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用Python城市所有道路信息入库的步骤可以如下: 1. 安装 Python 虫框架,比如 Scrapy,可以使用命令 `pip install scrapy` 进行安装。 2. 编写虫代码,在 Scrapy 框架中创建一个虫项目,并在相应的虫文件中编写城市道路信息的代码。 3. 获道路信息的网站。可以通过搜索引擎或者具体的城市官方网站查找道路信息相关的网站。 4. 使用 Scrapy 的选择器(Selector)来定位和提道路信息的元素。可以通过查看网页源代码,使用类似XPath或CSS选择器的语法来定位元素。 5. 编写数据解析代码,将提到的道路信息数据解析为需要的格式,比如字典或者CSV文件。 6. 定义数据库模型,并使用 Python 的数据库操作包(比如SQLAlchemy)进行数据库的连接和操作。可以将道路信息保存在关系型数据库(如MySQL、PostgreSQL)中,或者其他非关系型数据库(比如MongoDB)中。 7. 在虫代码中将解析到的道路信息数据存入数据库,可以使用ORM(对象关系映射)的方式进行数据的插入操作。 8. 运行虫代码,使用命令 `scrapy crawl spider_name` 来启动虫进行数据抓入库操作。 9. 监控虫运行状态,并根据需要进行数据的持续更新和维护。 通过以上步骤可以使用Python城市所有道路信息,并将其入库保存在相应的数据库中,方便后续进行数据分析和应用开发。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值