八爪鱼抓取html,网页图片采集和抓取方法详解 - 八爪鱼采集器

1、图片采集

在八爪鱼中,采集图片有以下几大步

1)先采集网页图片的地址链接URL

2)通过八爪鱼提供的图片批量下载工具将URL转化为图片

2、常见应用情景

1)非瀑布流网站纯图片采集

2)瀑布流网站纯图片采集

这类瀑布流网站的采集需要按下面的步骤对采集规则进行设置:

① 点击采集规则打开网页步骤的高级选项;

② 勾选页面加载完成后下滚动;

③ 填写滚动的次数及每次滚动的间隔;

④ 滚动方式设置为:直接滚动到底部;

完成上面的规则设置后,再对页面中图片的URL进行采集

注意:滚动次数,滚动间隔应根据网页加载情况来设置。如果往下滚动,页面信息加载比较慢,建议将滚动间隔设大些。滚动次数应看滚动多少次可以将我们需要的数据加载全,建议多一两次,有备无患。滚动方式则看网页是一滚到底就全部数据都能顺利加载,还是得一屏一屏滚动才行。一般而言一屏一屏滚动,效果好但更费时。滚一屏的大小取决于你屏幕的大小,云采集则默认全屏。

3)文章图文采集

需要将文章里的文字和图片都采集下来,一般有两种方法

方法1:判断条件,设置判断条件分别采集文字和图片

方法2:先整体采集文字,再循环采集图片

3、教程目的

采集图片URL这个步骤,以上图片采集教程中都有详细说明,不再赘述。本文将重点讲解图片采集的采集技巧和注意事项。

4、采集图片URL操作步骤

以下演示一个采集图片URL的具体操作步骤,以百度图片URL采集为例。不同的网站图片URL会遇到不同的情况,请大家灵活处理。1.gif?width=0&height=0

① 选中一张图片 → 选中全部 → 采集以下图片地址

e830b3690023fa870fb24def8a6cedce.gif

② 启动采集看一下采集结果,图片URL被采集下来

00459472b4fc8e92d860002c0a59015d.gif

具体流程步骤请参考:瀑布流图片采集,以百度图片为例 中的步骤1-4。

5、图片批量导出操作步骤

经过如上操作,我们已经得到了要采集的图片的URL。接下来,再通过八爪鱼专用的图片批量下载工具,将采集到的图片URL中的图片,下载并保存到本地电脑中。

1)下载八爪鱼图片批量下载工具,双击文件中的MyDownloader.app.exe,打开软件

2)打开File菜单,选择从EXCEL导入(目前只支持EXCEL格式文件)

443f8fa46684e20d342e068cc552c33a.png

3)进行相关设置

1a16bce8f0819692bc03fb8fa028575c.png

选择EXCEL文件:导入你需要下载图片地址的EXCEL文件

EXCEL表名:对应数据表的名称

文件URL列名:表内对应URL的列名称

保存文件夹名:EXCEL中需要单独一个列,列出图片想要保存到文件夹的路径。以上示例中,我们在EXCEL中,加一个列,列名为“图片保存文件夹”,列中的数据为“D:\百度图片采集\”,则“D:\百度图片采集\”成为图片保存路径(可自定义选择其他磁盘进行存储、可自定义修改文件夹名;“D:\\”需在英文状态下输入)

以下是具体操作演示:

① 按照上面所述,配置EXCEL表名、文件URL列名和保存文件夹名

54683a1afe3d69ec51be167fa5b5ab75.gif

② 配置完成以后,点击“开始下载”

976627c35cd2c2c11c9b2abb4032be9d.gif

③ 打开D盘,找到“百度图片采集”文件夹,查看采集到的图片

440d7c5c34c47d0d27603b04244b6845.png

6、图片采集及批量导出技巧

1)将不同图片,保存到不同文件夹中:在八爪鱼配置抓取模板时,预先添加一个字段,作为图片文件夹名,可设置多层文件夹。例,“D:\第一层文件夹名\第二层文件夹名\”,其中“D:\第一层文件夹名\”是固定的,“第二层文件夹名”,根据图片采集时的标题/关键词变化

① 采集关键词的文本,作为“第二层文件夹名”。修改字段名称为“图片保存文件夹”。对采集到的关键词进行格式化处理,添加前缀和后缀,演示中添加的前缀为“D:\百度图片采集\”,后缀为“\”

45d0eb0650c681d90a3e5e5f9d26ac47.gif

② 启动采集看一下采集结果,可以看到采到的数据中,已存在一个“图片保存文件夹”字段,无需手动设置

a3b373cefa8c7dbb0b6aebed520c993c.gif

③ 经过图片导出操作后,打开D盘,找到“百度图片采集”文件夹,可以看到子文件夹以关键词命名

816d6dca74c00e4902506b326f2cfb00.png

2)对图片进行编号:如果下载后需要将图片按照指定的文件名保存,则需要包含具体的文件名,例如“D:\第一层文件夹名\第二层文件夹名\1.jpg”,可利用excel自动编号

① 利用excel自动编号

ffe981fae63b0e7ce7ac6fcae8da6c08.gif

② 经过图片导出操作后,打开D盘,找到“百度图片采集”文件夹中的子文件夹,可以看到图片以1、2、3、4......自动命名

503f37acbddeef51dc24b4c0a5a3a711.png

7、注意事项

1)支持下载的格式

① 采集下来的图片URL,以.jpg、.gif、.png等图片格式结尾时,一般情况下能批量转换为图片

② 如果采集下来的URL不是以图片格式结尾,则有可能不进行转换,可能是网站对此图片链接进行加密仅支持在线查看

2)如果图片URL采集下来是乱码或都一样的,可能是图片需要一定的加载时间,我们需要在提取数据步骤前,设置执行前等待,让图片完全加载出来;对于需在当前屏幕展示一段时间,图片才能完全加载出来的情况,还需相应的设置ajax滚动,具体请参考 ajax滚动教程 。

  • 2
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值