数据采集笔记(八爪鱼)-task1

本文介绍了GitHub和Gitee的基础概念与使用,包括git作为版本控制系统,GitHub作为代码托管平台,以及Gitee作为国内替代选项。详细讲述了如何在GitHub上查找、查看和保存资源,并提供了找寻开源项目的方法。此外,分享了初次使用八爪鱼采集工具的感受,指出其在小规模数据采集上的便利性,以及与Python爬虫的优劣势对比。
摘要由CSDN通过智能技术生成

1.github与gitee的基础使用

在学习过程中,由于用到了github,故对github的几个基本操作进行了学习。

1.1 概念

概念分析区别:

  • git::一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。
  • github:基于git版本管理软件而打造的网站,程序员在里面进性交流,代码托管和研发协作。
  • gitee:基于 Git 的代码托管和研发协作平台,相当于中文版的github网站。

1.2 github使用

对于大部分人,使用github的主要目的是找资源,那么找资源的途径有:资源搜索,资源查看和保存。

资源查找
注册好了一个github账户之后,查找好的项目有两条途径1
1)找开源项目的一些途径
• https://github.com/trending/
• https://github.com/521xueweihan/HelloGitHub
• https://github.com/ruanyf/weekly
• https://www.zhihu.com/column/mm-fe
2)特殊的查找资源小技巧-常用前缀后缀
• 找百科大全 awesome xxx
• 找例子 xxx sample
• 找空项目架子 xxx starter / xxx boilerplate
• 找教程 xxx tutorial

资源查看
找到一个项目后,主要看四个地方

  • 项目名字:左上角的项目名字,看看主体内容是否是需要查找的
  • 星标:首先是右上角的星标,如果星星比较多,说明是最近比较热门的项目
  • readme文件:项目列表下方有一个readme文件,里面主要是说明了项目的内容介绍,这在确定一个项目是否是你所需要的尤为重要。

资源使用和保存
当找到了资源之后,如何使用其中的代码又是关键,这里,有三种方法

  • 直接在github上打开项目文件
  • 把这整个项目下载下来:点击绿色的按钮code,里面有一个Download ZIP ,可以把整个项目下载下来
  • 复制到gitee中查看下载:由于github是一个国外的网站,平时打开可能不是太方便,可以注册一个gitee账户,然后通过绿色的按钮code中项目的URL码,把github中的项目转存到gitee中,也方便下载查看。

2.使用八爪鱼初体会

通过短短的几个步骤,就能够把36氪中页面的信息爬取下来,操作非常简便。

3. 问题思考回答

1.体验了八爪鱼采集后,你觉得它能够用在学习和工作中的哪些方面?、
对一些网页上面的小规模数据,能够通过这个软件进行爬取。
2.推测一下,你觉得八爪鱼的工作原理是什么?
通过设置一些流程,软件模拟认为操作(打开网页,输入关键词搜索,复制筛选所得到的页面中的信息),然后进行循环操作,把得到的信息归整到一个文件中去。
3.和python爬虫相比,八爪鱼的优势和劣势是什么?
优势:无代码进行数据的采集,能够进行小规模的数据采集,操作简单方便
劣势:不能够对大规模数据进行采集,还有就是功能有限,不能够进行更加精细的数据采集操作。


  1. https://www.bilibili.com/video/BV1e541137Tc ↩︎

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值