Gooseeker软件使用教程

因为课程需要使用到Gooseeker软件,写个使用教程防止以后忘记

  1. 安装好gooseeker软件,下图为安装好的界面:
    在这里插入图片描述
  2. 点击右上方的“MS谋数台”,弹出如下界面:
    在这里插入图片描述
  3. 在左上方的网址栏输入想要爬取的网站,我这里输入天气网站(http://tianqi.2345.com/wea_history/57516.htm),并在工作台里面创建任务,进行命名和查重,直到可以使用:
    在这里插入图片描述
  4. 在工作台上方标题栏中选择创建规则,选择“新建”并命名,点击确定:
    在这里插入图片描述
  5. 点击“抓取内容”中自己的命名的一栏,选中点击右键,选择“添加”,选择“包容”:
    在这里插入图片描述
  6. 输入你想抓取的内容名称并保存,我这里重复此步骤,创建抓取内容“日期”、“最高气温”、“最低气温”、“天气”、“风向风力”、“空气质量指数”,并将“日期”勾选为关键内容:
    在这里插入图片描述
  7. 在“浏览器”窗口中点击你想要获取的内容,比如现在要获取“日期”,就在“日期”那个区域进行鼠标点击,这时候MS谋数台会自动定位“日期”,即在HTML中结点的DIV结点位置。展开结点,找到text结点,右击鼠标,选择内容映射,然后选择你想要映射至的抓取内容:
    在这里插入图片描述
  8. 重复进行第七步,知道把想要抓取的内容给全部映射:
    在这里插入图片描述
  9. 创建爬虫路线,点击工作台标题栏中的“爬虫路线”,点击“新建”:
    在这里插入图片描述
  10. 创建翻页定位编号,在浏览器中点击上一月,网页会自动定位该文本的结点,右击结点选择“翻页映射”,“作为翻页区”,“线索一”:
  11. 创建记号定位编号,在游览器中点击上一月,在网页标签里会自动该文本定位的结点,打开该结点,可以看到text属性,右击text(此处只能右击text,不能右击结点),选择 “翻页映射”,“ 作为翻页记号”:
    在这里插入图片描述
  12. 创建样例复制映射,点击工作台标题栏里面的新建规则,勾选右方的启用,启动样例复制管理功能:
    在这里插入图片描述
  13. 分别找到该页面想要爬取的第一条数据的日期栏和第二条数据对应的日期栏的节点,右击第一条数据的日期栏对应的结点,选择“样例复制映射”,“第一个”,右击第二条数据的日期栏对应的结点,选择“样例复制映射”,“第二个”:
    在这里插入图片描述
    在这里插入图片描述
  14. 点击工作台左方的测试,对当前的规则进行测试:
    在这里插入图片描述
  15. 当测试爬取内容为想要的爬取内容时就可以保存当前规则了,点击“MS谋数台”右上方的“存规则”即可保存规则,然后可以使用我们创建的规则进行数据爬取了,想要看自己是否保存规则,就在工作台标题栏里面的“搜规则”查看:
    在这里插入图片描述
  16. 打开“DS打数机”,“DS打数机”在Gooseeker浏览器中的右上方,打开“DS打数机”,点击“文件”,“存储路径”,“ 自定义数据的存储路径”:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  17. 点击“单搜”,设置抓取网页数量,即可开始抓取:
    在这里插入图片描述
    在这里插入图片描述
  18. 然后打开存储地址,然后可以看到爬取的数据以XML文件保存:
    在这里插入图片描述
  19. 用EXCEL打开其中一个文件,可以看到爬取的数据集,数据爬取完成:
    在这里插入图片描述
  • 7
    点赞
  • 42
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值