python爬虫基础系列1-爬取**大学官网新闻+图片

最新推荐文章于 2024-05-30 10:08:42 发布

李行双

最新推荐文章于 2024-05-30 10:08:42 发布

阅读量2k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38979958/article/details/80385392

版权

因为前段时间，有个同学问到了如何爬取学校官网的新闻后，我就试试一下，在学这些好玩的东西之前，不需要你会python，只需要你有一点点网络和编程语言的基础就可以了，当然啦，如果你没有也没关系，毕竟度娘伟大哈哈。

好了，扯了这么多，终于进正题了。

————————————————————————————————————

第一步，首先我们要有一个目标网址。我们的目标的是找到新闻的首页。

http://www.bhu.edu.cn/page/list.asp?boardid=bd_news

这就是目标地址了，我们要做的就是要把我们看到的新闻的标题，把他们全部爬取下来保存在我们本地的文件夹里。那么怎么爬取呢？

第二步现在我们右键鼠标，选择查看源代码。这是查看该网站的HTML代码，有一点的web的基础的就知道，你就看到如下的内容。

第三步，你会发现你想要的标题的信息全在这里面，那我们要怎么拿出来呢这些数据，我们分析一下它，你会发现他们有规则。

我圈出来的都是有规则的，就是说我们要的数据的HTML的代码都是有代码。在这里我们就可以用正则表达式去提取它了，关于正则表达式呢？它简单来说就是一个式子，所有能满足它的条件都能提取到。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬虫基础系列1-爬取**大学官网新闻+图片

因为前段时间，有个同学问到了如何爬取学校官网的新闻后，我就试试一下，在学这些好玩的东西之前，不需要你会python，只需要你有一点点网络和编程语言的基础就可以了，当然啦，如果你没有也没关系，毕竟度娘伟大哈哈。好了，扯了这么多，终于进正题了。————————————————————————————————————第一步，首先我们要有一个目标网址。我们的目标的是找到新闻的首页。 http://...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。