python爬虫之爬取多篇含有关键词的文章标题和内容_如何爬取网站包含关键字的内容-CSDN博客

本文链接：https://blog.csdn.net/hell_orld/article/details/108183095

该博客介绍了如何使用Python爬虫抓取含有特定关键词的文章标题和内容。通过输入关键字和页数，利用beautifulsoup4和requests库解析HTML，根据网页URL规律动态构造页面地址。文章内容主要涉及网页源码分析、URL构造、HTML元素选择以及信息提取，最终将结果保存至TXT文件。同时提到了功能优化和Java版本的实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python爬虫之爬取多篇含有关键词的文章标题和内容

实现的功能

在这里插入图片描述

输入想要搜索的关键字和输入关键字后的前几页页数（即输入关键字后跳转的网页的页数，如下图）
在这里插入图片描述
将包含关键字的文章标题和内容提取出来保存在一个txt文件里面（如下图，输入关键词为高新，前一页）

需要用到的库

获取文章信息需要的库：beautifulsoup4，request；

需要对html一些标签有一定的了解

可以到w3cschool了解
打开维科闻网站输入关键词后，按F12开发者工具，或者右键点击查看源，就可以看到网页的源代码。

代码设计思想

1.每个网页通过request请求获得网页源代码，再通过bs4(beautifulsoup)来对源代码进行提取信息；
2.先观察每次输入关键字之后网址的变化，如我输入高新，可以发现关键字在keywords=里面，那这样可以用input后，将关键字字符串和前面的网址连接起来。
在这里插入图片描述

3.观察每一页的网址变化，如第三页，可以发现页数是存在pagenum=里面的（第一页可能忽略了，你可以尝试的输入http://www.ofweek.com/newquery.action?keywords=高新&pagenum=1，发现会跳转第一页），这样就可以将页数和前面2拼接后的网址再拼接起来。
在这里插入图片描述
4.接下来就是看搜索关键词后网页的源代码（F12），可以发现每个文章都是在类名为zx-tl的div块标签里面，就可以通过select提取出里面的文章的标题和链接。

5.再将每页文章的链接访问一遍，提取出文章的内容，而再次打开每篇文章的链接，发现文章的内容都是在类名为artical-content的div块里面，通过select把文章的内容提取出来。