PyQuery库是一个非常强大又灵活的网页解析库,是jQuery的Python实现,能够以jQuery的语法来操作解析 HTML 文档,和它差不多的还有BeautifulSoup,都是用来解析的。相比BeautifulSoup比较完美的解析,PyQuery库更方便简洁。
如果你不了解pyquery库详情这里附上一个学习链接。
作者:我为峰2014
链接:https://www.jianshu.com/p/770c0cdef481
来源:简书
- 我们需要爬取的内容有:书名,作者,字数,类型,简介以及小说链接和试读链接。
(请确认你已经安装前面章节需要安装的一系列数据。如果你没有,那请移步前面的章节进行安装操作。)
一.用vscode创作你的第一个python项目
这里附上如何创建项目和配置编译环境的链接
https://www.jianshu.com/p/506debe61423
作者:浪晋
二.requests请求网页源代码
在这里我爬取的小说网站网址是:
https://xs.sogou.com/0_0_0_0_heat/?pageNo=
下面开始编写获取网页的代码
import requests
//因为需要获取多个界面所以在这里定义了一个获取网址的函数
def get_html(url):
# 获取页面内容)(获取数据)
r = requests.get(url)
# 提取网页源代码
html = r.text
if r.status_code == 200:
return html
else:
return "error"
//因为要爬取的信息不止一页因此需要找出相同的部分进行字符串拼接
# url固定的部分
url = "https://xs.sogou.com/0_0_0_0_heat/?pageNo="
for i in range(1, 6):
# 字符串拼接
url_new = url + str(i)
html_list = get_html(url_new)
- 关于找到固定部分以及字符串的拼接