在企业实际应用中,需要经历抓取数据->存储数据->构建API的基本步骤,然后在去定时更新数据。
一般情况下,如果想在短时间内完成大批量的从数据抓取到提供数据服务,短时间内是很难。
而且对于非程序员来说,你的目的并不是想去学习搭建稳定可靠自动更新的API服务,你只是想用这个网站的数据而已。企信数动智慧平台就是为此实现,可以快速的完成爬虫创建、数据库表在线编辑、API服务在线编辑,达到使用网站实时数据的目的。
下面分享下,作为一枚程序员是如何利用现有开源项目来完成自己的从爬虫到数据服务的:
1、关于爬虫源码选择
github上有关爬虫的源代码很多,大家可以根据自己的业务特点选择一个适合自己的,简单易学的即可,很多同时也各有优缺点,这里我选择的是spider-flow ,主要原因是:有比较详细的文档。
2、创建数据表
这里我选择使用mysql数据库来存储爬取到的数据,首先创建一个数据存储表:
点击新增,在线创建表单:
填写完相关信息
点击确定下图则是生成的一个数据库表,点击同步到数据库,完成表单的创建
到数据库看看表单是否已创建
完美!
3、接着创建爬虫
这里边我用这个项目自带的一个演示示例“抓取每日菜价”,需要做如下操作:
1、修改定时表达式
2、修改输出节点内容,存储到数据库表
4、查看表单数据
5、创建报表
6、创建API服务
1、抓取元数据
2、创建API服务
3、调用API服务消费数据
当然API服务接口也应该要支持增删改查才算完美,到目前为止就已经完成了从爬虫到API数据服务的所有工作了。
当然也存在很多需要优化的地方。后边再优化改进。本文只是提供给大家一个从爬虫到数据API服务的一个大概思路,具体还得结合业务场景进行选择。一起加油!!!!