python3.8.0 下载_爬山虎采集器下载-爬山虎采集器 v2.5.0.0 免费版

  爬山虎采集器提供网页数据采集功能,您可以通过这款爬虫软件快速采集自己需要的内容,可以采集网页上的文档,可以采集图像,可以采集商品,可以采集微博,可以采集百度地图数据,软件提供网页浏览功能,可以直接输入网址采集数据,输入采集的地址就可以在软件设置采集方案,采集到的数据直接在软件显示,可以导出数据到本地使用,用户可以在软件配置新的采集方案,自己输入采集地址和采集关键词,手动配置采集方案,也可以使用软件提供的采集模板快速获取数据,提供十多个采集模板使用,需要的朋友就下载吧!

55fa522064392119e837a0915e521f92.png

软件功能

  1、爬山虎采集器提供多种采集功能,直接在软件采集微博内容

  2、软件已经提供微博采集模板,输入网址就可以执行采集

  3、软件支持新建任务功能,在软件自定义采集任务,自定义采集方式

  4、直接在软件输入需要抓取的网址,可以输入多个网址抓取

  5、可以快速抓取自己需要的微博内容,也可以在软件抓取微博评论

  6、支持网页浏览,输入网址就可以在软件打开该页面

  7、支持添加字段功能,在软件选择需要采集的元素

  8、支持修改名称、删除字段、选择元素、添加新元素、手动设置 XPath

  9、支持设置取值属性、数据处理、文件下载、使用自定义值、不得重复、不得为空

  10、支持百度搜索结果采集、淘宝商品采集、美女图片采集

  11、支持百度知道搜索采集_简易采集、京东商品评论采集、京东商品列表采集、新浪新闻采集、博客园新闻

  12、支持连续N分页,无新增数据停止采集0(0表示不限制),在分页上执行采集前脚本(默认只在第一个页面执行)

  13、支持检查分页网址重复,支持自动导出数据(发布)

  14、浏览器设置,禁用图片、拦截广告、禁用JS、禁用flash、禁止弹窗

软件特色

  通用灵活

  99%网站可以采集,静态网页、动态页面、单页应用、手机APP都可以抓取,GET、POST都可以采集

f65cfbeafbdd034146c849323f26e46e.png

  高速采集

  内置高效浏览器引擎、HTTP引擎、JSON引擎,经过极致优化的内核,多线程采集,快速如飞。

94ee9a4eb4e77664f5cd1b226ca50e3c.png

  增量更新

  通过定时运行和增量更新,可以使得采集任务完全实现自动化运行,实时监测目标网站,实现同步更新。

250c63829d0b72dfd88a09f6674fc992.png

  批量文件下载

  可以自动下载图片、PDF、DOCX等各种文件,并且支持自定义保存目录、自定义文件名称。

aa29d3472d41e693f9445eb0f689f00f.png

安装方法

  1、打开软件直接安装,点击下一步

324d54ae5fe02b8f22a339556abd2cbe.png

  2、提示软件的安装地址D:\Program Files (x86)\PashanhuV2

9cc346a55998bf629569b13a1d7b79a1.png

  3、软件的安装进度界面,等待主程序安装结束

6922f85bcaad214ffc5311cce99dcad6.png

  4、如图所示,这里是软件的安装结束界面,点击完成

271118e4db2491bb92a86a941aa5f551.png

使用说明

  1、打开爬山虎采集器提示两种采集方式,简易采集,内置主流网站采集模板,无需学习采集技术,一键采集

8957e173ffe9a3a459d92d79e8e9c3ce.png

  2、新用户可以选择官方提供的简易采集模式试用软件,也可以自定义采集网页内容

27ff0c34bcc740ef6c8d94e07d58b14e.png

  3、这里是官方提供您的采集工具,点击任意一个工具试用,例如启动淘宝商品搜索工具

bf683337539006a967976224eba511ef.png

  4、按照输入的关键词,采集淘宝商品搜索的结果数据。包含商品标题、链接、价格、付款人数、店铺名称、位置字段

91f13c4a55141c7a350c86b03f967c5f.png

  5、提示编辑任务设置,在软件上设置分组,设置关键词内容,输入要搜索商品的关键词,比如连衣裙

b4ec197e4074422d4c163c88ea9f03a8.png

  6、点击登陆(需要登陆才能采集,请点击登陆)

1bb87cebd71325ff5b39229e9c8f51a3.png

  7、这里是新建采集任务功能,可以在软件输入网址,将多个网址输入软件,在软件底部设置任务名字

ef760653df1426a44a458ac0d6dd7581.png

  8、抓取数据设置界面,可以添加字段内容,支持列表模式,支持分页模式

09e137623a344fe4d7d807fd05327cb3.png

  9、进入抓取内容设置界面,支持浏览器设置,可以禁止图像,可以拦截广告

b42369ca8dc73708468a16eb788c8976.png

  10、计划任务设置功能,在软件设置任务自动执行的时间,可以设置每小时采集

c488bb4f423dc04dd83bc3723ceba761.png

  11、设置请求失败重试方案,当以下条件成立时,重新请求,可以设置重新采集的方案

76de72316391e1e7e8d211389b60e64f.png

  12、通过编写屏蔽规则,提高网页打开速度。不要局限于屏蔽广告,可以屏蔽一切无关请求。规则语法与广告屏蔽插件 Adblock Plus过滤规则语法相同。一行一条规则

5a4b3a6615f185e28a0faf4d7d081d17.png

  13、设置采集插件:(可以通过编写插件代码来对采集结果进行修改,插件是C# DLL形式来实现, net framework4.0版本

42a4b33ddaed93360685f97adb47f43c.png

  14、使用更新模式(需要有字段设置为不得重复,当字段值重复时,其他字段将会替换之前的内容)

dff711224c8459b7ef47f594ef11fac4.png

  15、任务并行数量15

  网页超时设置30秒

  运行日志保存最近3(天)(保存在程序根目录下task-logs)

1a678e6906321185a977aee4d1632e38.png

  16、高级设置

  支持 https tls1. 2协议

  文件下载器最大线程数8

986bcc74a11e87e0d6474da440ca3e44.png
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值