Python学习 pyquery解析小说网站信息（4）

最新推荐文章于 2024-04-15 16:19:05 发布

(*°∀°)=3

最新推荐文章于 2024-04-15 16:19:05 发布

阅读量440

点赞数

分类专栏：学习记录文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_44150801/article/details/95042631

版权

本文介绍了使用PyQuery库解析网页，特别是针对小说网站信息的抓取。讲解了如何通过PyQuery获取书名、作者、字数等信息，并详细阐述了URL的页码规律、网页内容的提取方法，以及字典遍历在处理元素查找中的应用。同时，提到了Chrome浏览器的开发者工具在分析网页结构中的帮助。

摘要由CSDN通过智能技术生成

PyQuery库是一个非常强大又灵活的网页解析库,是jQuery的Python实现，能够以jQuery的语法来操作解析 HTML 文档，和它差不多的还有BeautifulSoup，都是用来解析的。相比BeautifulSoup比较完美的解析，PyQuery库更方便简洁。
如果你不了解pyquery库详情这里附上一个学习链接。
作者：我为峰2014
链接：https://www.jianshu.com/p/770c0cdef481
来源：简书

我们需要爬取的内容有：书名，作者，字数，类型，简介以及小说链接和试读链接。
（请确认你已经安装前面章节需要安装的一系列数据。如果你没有，那请移步前面的章节进行安装操作。）

一.用vscode创作你的第一个python项目

这里附上如何创建项目和配置编译环境的链接
https://www.jianshu.com/p/506debe61423
作者：浪晋

二.requests请求网页源代码
在这里我爬取的小说网站网址是：
https://xs.sogou.com/0_0_0_0_heat/?pageNo=
下面开始编写获取网页的代码

import requests


//因为需要获取多个界面所以在这里定义了一个获取网址的函数
def get_html(url):
    # 获取页面内容）（获取数据）
    r = requests.get(url)
    # 提取网页源代码
    html = r.text
    if r.status_code == 200:
        return html
    else:
        return "error"


 //因为要爬取的信息不止一页因此需要找出相同的部分进行字符串拼接
# url固定的部分
url = "https://xs.sogou.com/0_0_0_0_heat/?pageNo="
for i in range(1, 6):
    # 字符串拼接
    url_new = url + str(i)
    html_list = get_html(url_new)