从零开始打造一个新闻订阅APP之爬虫篇（一、背景介绍&需求分析）

最新推荐文章于 2023-12-13 09:05:02 发布

VIP文章小龙人2015

最新推荐文章于 2023-12-13 09:05:02 发布

阅读量8.3k

点赞数 4

分类专栏：新闻订阅APP实现文章标签：网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangno11988/article/details/45827877

版权

这段时间，打算好好写写博客，希望将自己前段时间的开发经历梳理一遍，看看能不能沉淀一些东西，也希望能够和有共同兴趣的同学一起探讨学习。
有兴趣的同学可以看看前两篇文章：
“创业梦”的破碎
 布板的前世今生
我开发的就是一个类似于Zaker和鲜果等新闻订阅服务的APP；接下来的一个系列，我都将是围绕这一个主题，按照一定的逻辑，介绍如何一步步地开发出一个新闻订阅APP。
首先，将会是第一部分：爬虫篇。
爬虫是我工作量最少，但是代码写的最有意思的一部分。
好了，言归正传，学习爬虫，不得不先提到通用搜索引擎的爬虫是如何工作的，先来看一张图：
这里写图片描述
注：nutch原理图
这大概是网上流传最广的一张关于爬虫的介绍图，左半部分即是爬虫的工作流程了。
它的工作步骤简单的概括大致分为以下几步：

指定需要搜索的页面集的url正则表达式;
注入urls种子，（通常是root url），并更新到待抓取集合中;
抓取当前待抓取集合中的urls所对应的页面;
解析抓取到的页面，包括：提取超链接，去重，合并到待抓取集合中;
重复3,

最低0.47元/天解锁文章

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
从零开始打造一个新闻订阅APP之爬虫篇（一、背景介绍&需求分析）

这段时间，打算好好写写博客，希望将自己前段时间的开发经历梳理一遍，看看能不能沉淀一些东西，也希望能够和有共同兴趣的同学一起探讨学习。有兴趣的同学可以看看前两篇文章： “创业梦”的破碎布板的前世今生我开发的就是一个类似于Zaker和鲜果等新闻订阅服务的APP；接下来的一个系列，我都将是围绕这一个主题，按照一定的逻辑，介绍如何一步步地开发出一个新闻订阅APP。首先，将会是第一部分：爬虫
复制链接

扫一扫

专栏目录

小龙人2015 CSDN认证博客专家 CSDN认证企业博客

码龄13年

13: 原创

110万+: 周排名

59万+: 总排名

4万+: 访问

: 等级

552: 积分

33: 粉丝

12: 获赞

7: 评论

10: 收藏

私信

关注

热门文章

分类专栏

最新评论

创业失败经历总结
Like:-: 希望你现在已经成功了
从零开始打造一个新闻订阅APP之服务器篇（一、系统结构设计&开发流程简介）
_晴空_: 楼主可以给一下服务器端的代码吗？
Android实战-使用gradle打多渠道包
tihi2: 有用，谢谢!
从零开始打造一个新闻订阅APP之Android篇（四、实现仿微信发图界面）
qq_34452571: 是不是还有什么包没说啊
"创业梦"的破碎
zylzysl1994: 楼主，看了你的创业经历，结合我自己刚才的一点思考，我觉得你可以这样做。你说:"我想要做一个平台，让信息生产者最快的把内容呈现到需要的消费者面前"。这个确实涉及太广，你要生产什么信息，呈现给什么人？都要具体出来，不具体，就很容易迷失，很容易没有核心竞争力。这也是你这次最大的失败点吧。但是我觉得这个方向很正确啊，我刚才就想到一个点子。我们都是做IT的，那么我们的核心消费者就是面向想要涉足IT方面的大学生，为他们提供IT相关的信息。具体一点的说，我们可以为编程初学者提供相关的技术信息和新闻，网上的技术文档很多，很杂，都不太适合初学者，我们可以提供初级的一些技术教程，并且是一系列的。而且，要知道，很多人可能对IT行业并不是很了解，可能就知道要走编程方向，就学个C、C++、Java之类的就够了，但是一些前沿的技术、主流的方法或框架他们并不了解，我们就可以为他们提供技术教程的同时，为他们提供前沿的技术信息，为他们打开眼界，领导正确的方向。而且，我们的教程可以通过网上的现有资源整理出适合的给他。还能实时的推荐给他现在正在学习的方面的信息。我们同时还能为有一定经验（编程方面）的大学生提供进阶的教程和信息，同时还能把他们当做我们 “团队的一员”，就是把我们的产品提供出扩展接口，把接口面向给他们，有他们来做更多的功能扩展（先是他自己本地扩展，在提交给我们审核）等等。。。时间不够，都是我自己一时瞎想的，就说出来看看吧。。。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。