关于网页抓取的10个误区(最新)

 

 

Amel Majanovic在Unsplash上的照片

 

1.  网页爬取是非法的

许多人对网页抓取有错误的印象。这是因为有些人不尊重互联网上的出色作品,而是通过窃取内容来使用它。Web爬虫本身并不是非法的,但是当人们未经站点所有者的许可而无视ToS(服务条款)使用它时,就会出现问题。根据报告,有2%的在线收入可能会由于网络抓取滥用内容而损失。即使网络抓取没有明确的法律和条款来限制其应用,但仍需受到法律的约束。例:

 

2.网页抓取和网页爬取相同

网络抓取涉及在目标网页上提取特定数据,例如,提取有关销售线索,房地产清单和产品价格的数据。相反,网络爬取是搜索引擎的工作。它扫描并索引整个网站及其内部链接。搜寻器可在没有特定目标的情况下浏览网页。 

 

3.您可以抓取任何网站

人们经常要求抓取诸如电子邮件地址或Facebook帖子以及LinkedIn信息之类的信息。在进行网页抓取之前,请务必注意以下规则:

  • 需要用户名和密码的私人数据无法抓取。
  • 遵守TOS(服务条款),该条款明确禁止网页抓取行为。
  • 请勿复制受版权保护的数据。

如果触犯相关法律,那么将会被起诉。例如,一个人抓取了一些机密信息,然后无视站点所有者发送的禁止信将其出售给第三方。可以根据违法侵害动产行为法,违反《数字千年版权法》(DMCA),违反《计算机欺诈和滥用法》(CFAA)以及盗用法起诉该人。

这并不意味着您不能抓取TwitterFacebookInstagramYouTube等社交媒体渠道的数据。他们对遵循robots.txt文件规定的抓取服务很友好。对于Facebook,在进行自动数据收集行为之前,您需要获得其书面许可 

 

4.您需要知道如何抓取数据

Web抓取工具(数据提取工具)对于非技术专业人员,如营销人员,统计学家,财务顾问,比特币投资者,研究人员,新闻记者等,非常有用。Octoparse推出了很多写好的抓取模板,涵盖FacebookTwitterAmazoneBayInstagram30多个网站上的14个类别的数据。只需在模板中输入关键字/ URL,就能快速获取到数据。无需编程,无需进行任何复杂的抓取配置。与Python相比,使用Octoparse抓取数据更加简单高效。

 

5.您可以将抓取的数据用于任何事情

如果从网站上抓取数据用于分析,以供公众使用,这是完全合法的。但是,如果是为获取利润而窃取机密信息是不合法的。例如,未经允许就抓取私人联系信息,然后将其出售给第三者以牟利是非法的。此外,在没有提供来源的情况下,将别人的内容抓取下来伪装成自己的原创内容,也是不道德的。根据法律,您应该遵循禁止垃圾邮件,禁止抄袭,禁止任何欺诈性使用数据的理念。

 

6.网页抓取是万能的

网页抓取并不是一劳永逸的。某些网站会不定期更改其布局或结构。如果遇到这样的网站,以前配置好的抓取任务可能没办法正常抓取到想要的数据。抓取不到数据的原因有很多,可能是将您识别为可疑机器人。也可能是由于更改了地理位置没有访问权限。在这种情况下,我们需要调整抓取任务。

 

7.抓取速度可以尽可能快

很多抓取广告都会宣传其抓取速度很快:在几秒钟内收集数据。但是,过快的抓取速度很容易对网站造成损害:快速的可伸缩数据请求将使Web服务器超载,从而可能导致服务器崩溃。这时候可能被起诉。根据“侵入动产法(Dryer and Stockton 2013),该人应对损害负责。如果您不确定网站是否可抓取,请咨询网页抓取服务提供商。Octoparse是负责任的网页抓取服务提供商,将客户的满意度放在首位。

 

8. APIWeb抓取相同

API是将数据请求发送到Web服务器,Web服务器返回相应数据的渠道。API将通过HTTP协议以JSON格式返回数据。例如,Facebook APITwitter APIInstagram API。通过API获取数据具有一定难度,且返回的数据有一定限制,可能并不完全是您想想要的。网页数据抓取工具则更简单、更灵活。Octoparse具有网页抓取模板。对于非技术人员而言,通过在模板中输入关键字/ URL来获取数据更加简单。

 

9.抓取的数据仅在经过清理和分析后才对我们的业务有效

许多数据集成平台可以帮助我们进行数据可视化分析。相比之下,数据抓取似乎对业务决策没有直接影响。Web抓取获得的网页原始数据,确实需要在处理后才能彰显价值,例如对评论文本进行情感分析,进而洞察市场。但是,有些原始数据在黄金开采者手中可能是极其有价值的。

以Octoparse为例。通过使用 Google搜索网络抓取模板 来采集关键词的搜索结果。您可以提取竞争对手的标题和详细描述,以确定您的SEO策略。对于零售行业,还可以使用Web抓取工具来进行产品监控。

 

10.网页抓取只能用于商业

网页抓取广泛应用于各个领域:寻找潜在客户,价格监控,价格跟踪,业务市场分析。学生还可以利用Google Scholar 网络抓取模板进行论文研究。房地产经纪人能够进行住房研究并预测住房市场。或者可以通过关键词抓取相关的新闻媒体数据,做垂直领域资讯聚合。

 

___________________________________________________________________________________

引用:

DryerAJStocktonJ.2013。《互联网“数据采集”:咨询客户入门》,纽约法律杂志。

取自:https://www.law.com/newyorklawjournal/almID/1202610687621

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值