一个简单的爬虫——新闻爬虫

最新推荐文章于 2024-05-27 13:16:19 发布

老白和他的爬虫

最新推荐文章于 2024-05-27 13:16:19 发布

阅读量6.7k

点赞数 5

本文链接：https://blog.csdn.net/cjy1041403539/article/details/88636981

版权

公众号的第一篇文章，就先来介绍一下我做的最多的也是最简单的新闻爬虫吧。这个爬虫本身是用java写的，搭载在我之前项目的服务器上，今天用python实现一下。这个爬虫我也给别人讲过很多次，在双创之星的舞台上讲过，在新生导航课上讲过（两次），在课堂上讲过。其实现在回头看一下这个爬虫真的很low很简单，但好歹也是我花了很久学习的，今天就系统的用python来实现一下吧。

欢迎公众号关注：老白和他的爬虫

新闻爬虫

单个网页信息爬取
多个网页链接爬取
整合模块代码

1.单个网页信息爬取

1.1获取目标网址信息

import requests
if __name__ == "__main__":
     target = 'http://imd.ccnu.edu.cn/info/1009/7267.htm' #目标网址
     req = requests.get(target) #获取对象
     req.encoding = "utf-8" #设置编码格式
     print(req.text)

我选取的网址是华师信管官网。在这段代码中我们通过一个requests.get()来获取了目标对象，你可以把这一步理解为用浏览器打开了一个网页。这里记住把编码格式通过req.encoding进行统一，避免出现乱码的情况。最后一行是输出这个网页的源码

##1.2.提取目标网址信息
我们使用浏览器打开具体的网页，查看我们需要的信息
谷歌浏览器可以直接通过检查查看到我们需要的信息在哪里

我们可以看到我们所需要的文本信息都在class="sub_r_con sub_r_intro"的div 中。到这里我们要明确下我们所需要的信息到底是什么（其实这一步在你写爬虫前就要确定好）。这里我们需要的是新闻标题、日期、作者、正文，那么下面我们就要逐个击破
###1.2.1获取标题
同样的我们检查标题所在的位置

我们发现这个标题在<h1>中，下面通过代码来获取

from bs4 import BeautifulSoup
import requests
if __name__ == "__main__":
     target = 'http://imd.ccnu.edu.cn/info/1009/7267.htm' #目标网址
     req = requests.get(target) #获取对象
     req.encoding = "utf-8" #设置编码格式
     html = req.text #获得网页源代码
     bf = BeautifulSoup(html,'lxml') #利用BeautifulSoup进行解析
     title = bf.find_all('h1') #获取页面所有的h1标签
     print(title)

一行一行来读代码其实很好理解，前面我们获取了网页的源代码。通过bf = BeautifulSoup(html,'lxml')来对网页进行解析，讲解析后的网页结构赋予bf
。这里说明一下，lxml是一个参数，后面我会在专门学习BeautifulSoup的板块来学习。<

最低0.47元/天解锁文章

老白和他的爬虫

关注

5
点赞
踩
46

收藏

觉得还不错? 一键收藏
6
评论
一个简单的爬虫——新闻爬虫

公众号的第一篇文章，就先来介绍一下我做的最多的也是最简单的新闻爬虫吧。这个爬虫本身是用java写的，搭载在我之前项目的服务器上，今天用python实现一下。这个爬虫我也给别人讲过很多次，在双创之星的舞台上讲过，在新生导航课上讲过（两次），在课堂上讲过。其实现在回头看一下这个爬虫真的很low很简单，但好歹也是我花了很久学习的，今天就系统的用python来实现一下吧。欢迎公众号关注：老白和他的爬...
复制链接

扫一扫