采集图片,或者采集图片的链接地址是常见的数据采集需求。如何在不写代码编程的情况下,又可以简单有效的抓取到图片或图片地址呢?
首先,我们使用的工具是前嗅大数据的ForeSpider数据采集系统。在前嗅大数据官网下载免费版(www.forenose.com),免费版就可以满足我们抓取图片的需求。
下载安装后,启动软件。根据如下步骤,即可抓取到图片或图片的地址了。
(一)采集图片
采集图片和采集文本内容的配置方法类似。区别在于需要将存储图片的字段的取值类型设置为“原始数据流”,以及需要填写“链接额外标签”。
以“凤凰网(www.ifeng.com)”为例,采集新闻内的图片。
1.配置频道,创建模板
【采集图片:创建模板】
第一个模板对应新闻的链接列表,第二个模板对应新闻的正文内容,第三个模板对应新闻正文里链接到的图片。
2.配置新闻列表页模板
模板1用于过滤新闻的链接。
【模板1配置】
3.配置新闻正文页模板
模板2用于采集新闻的内容数据,以及链接到图片的地址。
(1)链接抽取
该链接抽取需要关联模板3(图片),并在“链接额外标签”处填写“src”(图片链接的属性)。地址过滤一般不需要再填写过滤串。
【模板2配置】
(2)数据抽取
数据抽取新闻页的数据内容。关联新闻表单,分别配置各字段的取值。
4.配置图片页模板
(1)创建图片表单
首先在“表单”选项卡中创建一个用于存储图片的数据表单,设置一个主键字段,一个图片字段。图片字段的变量类型必须是“stream”类,取值类型须为“原始数据流”,扩展主类型为“图片”。这样设置后才能正确的在软件中预览图片,并存入数据库中。
如果不预先在“表单”选项卡中设置好该数据表单,也可以在模板3中右键创建字段,存储图片的字段的取值类型必须选择“原始数据流”。这样设置也可以采集到图片,但无法在软件中提前预览到图片。
(2)关联表单
在模板3中创建数据抽取,关联图片表单,关联后无需进行其他配置操作,即可采集到图片数据了。
【模板3配置】
(二)采集图片的链接地址
采集图片的链接地址,字段的取值类型需要用“节点属性”。例如某企业信息网,联系电话为一张图片,需要采集该图片的链接地址。“取值类型”选择“节点属性”,由于链接是<a>链接,属性为href,因此在“取值标示”处填写“href”,就可以采集到图片的链接地址了。
“定位类型”选择“特征定位”是由于各页面的联系方式表格的内容排列顺序不同,表格行数也不同,此时选择“标准定位”会出现错误。因此,根据表头内容的特征信息“公司电话”进行特征定位。
【节点属性示例】