1.python爬虫基础

luckyflyyy

于 2024-08-30 23:44:18 发布

阅读量462

点赞数 11

分类专栏： CDA数据分析合计文章标签：爬虫 python 大数据数据分析

本文链接：https://blog.csdn.net/luckyflyyy/article/details/141689930

版权

CDA数据分析合计专栏收录该内容

1 篇文章 0 订阅

订阅专栏

网络爬虫基础

网络爬虫的定义

网络爬虫，也称为网络机器人或网络蜘蛛，是一种自动采集互联网上数据信息的程序。
狭义与广义定义：

狭义上指遵循标准的http协议，利用超链接和Web文档检索方法遍历万维网的软件程序；
而广义的定义则是能遵循http协议，检索Web文档的软件都称之为网络爬虫。

网络爬虫的用途

网络爬虫的用途非常广泛，包括数据采集、搜索引擎优化、数据分析、舆情监控和自动化测试等。

主要用途：数据采集

• 金融，金融新闻/数据，制定投资策略，进行量化交易
• 旅游，优化出行策略
• 电商，比价系统
• 游戏，，调整游戏运营
• 银行，征信系统/贷款评级
• 招聘，职位信息，岗位信息
• 舆情，舆论导向

其他用途：12306抢票、各种抢购、投票、刷票、短信轰炸、网络攻击、Web漏洞扫描器

网络爬虫的法律风险

网络爬虫是否违法取决于其使用方式和目的。

网络爬虫，作为一种技术手段，本身是中性的。但如果在使用时未遵守相关法律法规，可能构成违法行为。以下是具体分析网络爬虫的合法性边界的内容：

数据爬取手段
遵守Robots协议：Robots协议是网站和爬虫之间的君子协议，告知爬虫哪些内容可以抓取，哪些不可以。违反Robots协议，如360搜索因违反百度设置的Robots协议而被判赔偿70万元。但是，即使网站没有Robots协议，也不意味着可以随意爬取数据，仍需考虑其他法律因素。
侵入性和非侵入性爬取：侵入性爬取行为，例如通过突破技术防护措施获取数据，可能会构成犯罪。相反，非侵入性的爬取普通公开数据原则上不构成违法。
抓取数据类型：抓取公开数据与非公开数据、普通数据与敏感数据（如个人信息）、商业数据等需要区别对待。例如，非法抓取并使用用户个人信息，如北京瑞智华胜科技有限公司被指控非法获取用户信息一案。
数据使用目的
合法用途：如果数据用于个人学习、研究等非商业用途，一般不会构成违法。但如果用于商业目的，尤其是未经授权的商业利用，则存在法律风险。
实质替代效应：若抓取的数据用于替代原数据提供者的部分产品或服务，从而造成市场竞争失序，这种使用目的是不合法的。
法律规制路径
刑事处罚边界：对于侵入计算机信息系统、非法获取数据等行为，根据《中华人民共和国刑法》可能构成非法侵入计算机信息系统罪、非法获取计算机信息系统数据罪等罪名。
民事责任：若爬虫行为违反了网站的使用协议或Robots协议，造成网站损失，需承担相应的民事责任。
合理规避风险
遵守法规：合规使用爬虫技术，避免触犯法律红线，是避免刑事责任的关键。
审慎爬取：只能爬取公开数据，不能对目标业务和网站造成影响。

反爬虫

反爬虫是指通过一系列策略和技术手段来阻碍或干扰网络爬虫的正常爬行，以保护网站数据和资源不被批量获取和滥用。
随着互联网的普及，网络爬虫技术日渐成熟，其合法用途广泛，如数据采集、搜索引擎优化等。然而，爬虫的滥用也给网站带来了很多问题，比如服务器负载过高、数据被批量抓取影响竞争力等。因此，反爬虫技术应运而生，旨在防止恶意爬虫对网站的侵扰。