SiteSucker使用记录

之前有试过用爬虫的方式扒取整个网站,缺点是耗时长,需要做的分析工作比较多,但是也有优点,完整分析后对整个网站的结构比较清晰,修改起来比较方便。最近领导给了个任务,给一天时间扒下来一个段子网站,很头疼,分析网站,写爬虫,再进行正则替换,这一套下来怎么着也得半个星期吧。然后本着轮子还是别人造的好的精神,谷歌(百度)到了这款软件。顺便吐槽下,这款软件网上的攻略都不给力啊,来一篇自己的踩到坑坑记录吧。


  • 下载安装

    • 自行百度SiteSucker

  • 软件界面


  • 功能介绍

    • 整站下载
    • 图形化界面

  • 使用指南I

    1. 在输入框中输入要爬取的种子url(一般网站首页吧,看你心情)
    2. 回车开始爬,over

  • 使用指南II

    1. 通过设置Path Constraints可选择爬取范围 
      • None: 无限制
      • Host: 与种子 url 属同一个(子)域
      • Directory: 与种子 url 属于统一路径
      • Paths Settings: 当前 url + 自定义 Paths Settings
    2. File Modification设置为Localize可以自动帮你关联本地js、css等文件
    3. File Replacement可以选择重复爬取的文件是覆盖还是怎么着
    4. 可以通过设置Levels来决定爬取的深度
    5. 多个爬取任务可以添加到queue,爬取配合设置的爬取深度可自动切换任务
    6. 爬取过程中分析文件占了很长的时间,如果爬到一半不想爬了可以先停止分析,把下载队列里的文件都下完就自动停止了
    7. 可以在webpage->patterns里面对爬取内容设置正则替换(有不可言说的妙用…)
    8. request里面可以选择ua,还可以设置尝试次数
    9. FileType里面可以过滤爬取的类型,比如视频(老司机微微一笑)
    10. preference里面还可以设置同时开启的连接数(加速)
    11. 需要登录才能抓取的,先在Open Browser中登录然后开始抓(过弯)
    12. Ignore Robot Exclusions可以突破rotots.txt的限制(起飞)


  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值