非常简单的爬虫其实就是获取页面信息。获取他们然后把他们这些页面的信息持久化也好,还是处理也好,这样处理后方便日后调用或者当下的计算。那么为什么还要做这写事情呢?我们直接通过网页查看不好吗?
那么问题来了:有些人想一个人看10个网页的部分数据信息。但是他又不想一个一个去翻,那么就只能一个一个去看,在这个过程中,就需要获取这个页面的元素,把10个页面的部分信息都获取出来展示到一个界面上,这就是我们爬虫的一个用途,
下面上图介绍:
我用的是谷歌浏览器,所以 可以使用 shift + ctrl + i(I) 打开我们的“检查”
我们选择元素栏:Elements
看下图经过对比,我们发现了元素栏中有一串文字和我们的界面文字是很像的。那么就是这个东西,对我们有用。我们就是要通过技术的方式获取到这些信息,这样可以间接性的掠过了广告以及那些不需要看到的元素。
上面讲到的东西就是我们爬虫可以干的活,那么下面的文章就是介绍如果通过.net core 技术来实现这些东西。