复习100种爬虫项目
文章平均质量分 58
Volcanoforever
今天你对我爱搭不理,明天我对你爱搭不理
展开
-
学100种基本爬虫项目--使用正则表达式来获取整篇小说
我们的目标是从"bbiquge"网站上获取某本小说的全文内容,并保存为.txt文件。我们将使用requests库进行网络请求,使用re和parsel库来解析页面,并把小说内容保存到本地。:对每一个提取到的章节链接,发送GET请求获取章节页面的HTML,然后解析HTML以提取章节标题和内容。最后,将提取到的标题和内容写入到本地的txt文件。最后,打开(如果不存在则创建)一个txt文件,并以追加的模式将标题和内容写入文件。在这段代码中,首先是拼接出每个章节的URL(),以及发送HTTP请求时使用的请求头(原创 2023-07-15 12:44:20 · 1083 阅读 · 1 评论 -
学100种基本爬虫项目--模拟浏览器发送请求并解析数据之爬取单章小说内容
本文将介绍如何使用Python中的requests模块发送请求,并使用解析库解析返回的数据。同时,我们还将了解到在数据解析过程中使用CSS选择器和XPath的情况,以及在无法获取标签时使用正则表达式的情况。举个例子,假设我们想要提取文章的标题,可以使用CSS选择器或XPath进行定位和提取。库解析了获取到的HTML文本,并通过CSS选择器定位到标题所在的h1标签,然后使用。另外,我们还可以通过CSS选择器或XPath来提取其他标签中的数据。接下来,我们可以将提取到的数据保存到本地文件中。原创 2023-07-14 21:28:04 · 747 阅读 · 0 评论