爬山虎采集器提供网页数据采集功能,您可以通过这款爬虫软件快速采集自己需要的内容,可以采集网页上的文档,可以采集图像,可以采集商品,可以采集微博,可以采集百度地图数据,软件提供网页浏览功能,可以直接输入网址采集数据,输入采集的地址就可以在软件设置采集方案,采集到的数据直接在软件显示,可以导出数据到本地使用,用户可以在软件配置新的采集方案,自己输入采集地址和采集关键词,手动配置采集方案,也可以使用软件提供的采集模板快速获取数据,提供十多个采集模板使用,需要的朋友就下载吧!
![55fa522064392119e837a0915e521f92.png](https://img-blog.csdnimg.cn/img_convert/55fa522064392119e837a0915e521f92.png)
软件功能
1、爬山虎采集器提供多种采集功能,直接在软件采集微博内容
2、软件已经提供微博采集模板,输入网址就可以执行采集
3、软件支持新建任务功能,在软件自定义采集任务,自定义采集方式
4、直接在软件输入需要抓取的网址,可以输入多个网址抓取
5、可以快速抓取自己需要的微博内容,也可以在软件抓取微博评论
6、支持网页浏览,输入网址就可以在软件打开该页面
7、支持添加字段功能,在软件选择需要采集的元素
8、支持修改名称、删除字段、选择元素、添加新元素、手动设置 XPath
9、支持设置取值属性、数据处理、文件下载、使用自定义值、不得重复、不得为空
10、支持百度搜索结果采集、淘宝商品采集、美女图片采集
11、支持百度知道搜索采集_简易采集、京东商品评论采集、京东商品列表采集、新浪新闻采集、博客园新闻
12、支持连续N分页,无新增数据停止采集0(0表示不限制),在分页上执行采集前脚本(默认只在第一个页面执行)
13、支持检查分页网址重复,支持自动导出数据(发布)
14、浏览器设置,禁用图片、拦截广告、禁用JS、禁用flash、禁止弹窗
软件特色
通用灵活
99%网站可以采集,静态网页、动态页面、单页应用、手机APP都可以抓取,GET、POST都可以采集
![f65cfbeafbdd034146c849323f26e46e.png](https://img-blog.csdnimg.cn/img_convert/f65cfbeafbdd034146c849323f26e46e.png)
高速采集
内置高效浏览器引擎、HTTP引擎、JSON引擎,经过极致优化的内核,多线程采集,快速如飞。
![94ee9a4eb4e77664f5cd1b226ca50e3c.png](https://img-blog.csdnimg.cn/img_convert/94ee9a4eb4e77664f5cd1b226ca50e3c.png)
增量更新
通过定时运行和增量更新,可以使得采集任务完全实现自动化运行,实时监测目标网站,实现同步更新。
![250c63829d0b72dfd88a09f6674fc992.png](https://img-blog.csdnimg.cn/img_convert/250c63829d0b72dfd88a09f6674fc992.png)
批量文件下载
可以自动下载图片、PDF、DOCX等各种文件,并且支持自定义保存目录、自定义文件名称。
![aa29d3472d41e693f9445eb0f689f00f.png](https://img-blog.csdnimg.cn/img_convert/aa29d3472d41e693f9445eb0f689f00f.png)
安装方法
1、打开软件直接安装,点击下一步
![324d54ae5fe02b8f22a339556abd2cbe.png](https://img-blog.csdnimg.cn/img_convert/324d54ae5fe02b8f22a339556abd2cbe.png)
2、提示软件的安装地址D:\Program Files (x86)\PashanhuV2
![9cc346a55998bf629569b13a1d7b79a1.png](https://img-blog.csdnimg.cn/img_convert/9cc346a55998bf629569b13a1d7b79a1.png)
3、软件的安装进度界面,等待主程序安装结束
![6922f85bcaad214ffc5311cce99dcad6.png](https://img-blog.csdnimg.cn/img_convert/6922f85bcaad214ffc5311cce99dcad6.png)
4、如图所示,这里是软件的安装结束界面,点击完成
![271118e4db2491bb92a86a941aa5f551.png](https://img-blog.csdnimg.cn/img_convert/271118e4db2491bb92a86a941aa5f551.png)
使用说明
1、打开爬山虎采集器提示两种采集方式,简易采集,内置主流网站采集模板,无需学习采集技术,一键采集
![8957e173ffe9a3a459d92d79e8e9c3ce.png](https://img-blog.csdnimg.cn/img_convert/8957e173ffe9a3a459d92d79e8e9c3ce.png)
2、新用户可以选择官方提供的简易采集模式试用软件,也可以自定义采集网页内容
![27ff0c34bcc740ef6c8d94e07d58b14e.png](https://img-blog.csdnimg.cn/img_convert/27ff0c34bcc740ef6c8d94e07d58b14e.png)
3、这里是官方提供您的采集工具,点击任意一个工具试用,例如启动淘宝商品搜索工具
![bf683337539006a967976224eba511ef.png](https://img-blog.csdnimg.cn/img_convert/bf683337539006a967976224eba511ef.png)
4、按照输入的关键词,采集淘宝商品搜索的结果数据。包含商品标题、链接、价格、付款人数、店铺名称、位置字段
![91f13c4a55141c7a350c86b03f967c5f.png](https://img-blog.csdnimg.cn/img_convert/91f13c4a55141c7a350c86b03f967c5f.png)
5、提示编辑任务设置,在软件上设置分组,设置关键词内容,输入要搜索商品的关键词,比如连衣裙
![b4ec197e4074422d4c163c88ea9f03a8.png](https://img-blog.csdnimg.cn/img_convert/b4ec197e4074422d4c163c88ea9f03a8.png)
6、点击登陆(需要登陆才能采集,请点击登陆)
![1bb87cebd71325ff5b39229e9c8f51a3.png](https://img-blog.csdnimg.cn/img_convert/1bb87cebd71325ff5b39229e9c8f51a3.png)
7、这里是新建采集任务功能,可以在软件输入网址,将多个网址输入软件,在软件底部设置任务名字
![ef760653df1426a44a458ac0d6dd7581.png](https://img-blog.csdnimg.cn/img_convert/ef760653df1426a44a458ac0d6dd7581.png)
8、抓取数据设置界面,可以添加字段内容,支持列表模式,支持分页模式
![09e137623a344fe4d7d807fd05327cb3.png](https://img-blog.csdnimg.cn/img_convert/09e137623a344fe4d7d807fd05327cb3.png)
9、进入抓取内容设置界面,支持浏览器设置,可以禁止图像,可以拦截广告
![b42369ca8dc73708468a16eb788c8976.png](https://img-blog.csdnimg.cn/img_convert/b42369ca8dc73708468a16eb788c8976.png)
10、计划任务设置功能,在软件设置任务自动执行的时间,可以设置每小时采集
![c488bb4f423dc04dd83bc3723ceba761.png](https://img-blog.csdnimg.cn/img_convert/c488bb4f423dc04dd83bc3723ceba761.png)
11、设置请求失败重试方案,当以下条件成立时,重新请求,可以设置重新采集的方案
![76de72316391e1e7e8d211389b60e64f.png](https://img-blog.csdnimg.cn/img_convert/76de72316391e1e7e8d211389b60e64f.png)
12、通过编写屏蔽规则,提高网页打开速度。不要局限于屏蔽广告,可以屏蔽一切无关请求。规则语法与广告屏蔽插件 Adblock Plus过滤规则语法相同。一行一条规则
![5a4b3a6615f185e28a0faf4d7d081d17.png](https://img-blog.csdnimg.cn/img_convert/5a4b3a6615f185e28a0faf4d7d081d17.png)
13、设置采集插件:(可以通过编写插件代码来对采集结果进行修改,插件是C# DLL形式来实现, net framework4.0版本
![42a4b33ddaed93360685f97adb47f43c.png](https://img-blog.csdnimg.cn/img_convert/42a4b33ddaed93360685f97adb47f43c.png)
14、使用更新模式(需要有字段设置为不得重复,当字段值重复时,其他字段将会替换之前的内容)
![dff711224c8459b7ef47f594ef11fac4.png](https://img-blog.csdnimg.cn/img_convert/dff711224c8459b7ef47f594ef11fac4.png)
15、任务并行数量15
网页超时设置30秒
运行日志保存最近3(天)(保存在程序根目录下task-logs)
![1a678e6906321185a977aee4d1632e38.png](https://img-blog.csdnimg.cn/img_convert/1a678e6906321185a977aee4d1632e38.png)
16、高级设置
支持 https tls1. 2协议
文件下载器最大线程数8
![986bcc74a11e87e0d6474da440ca3e44.png](https://img-blog.csdnimg.cn/img_convert/986bcc74a11e87e0d6474da440ca3e44.png)