Python爬虫技术性总结(3)

本文总结了Python爬虫的基础知识,包括数据获取方式、爬虫原理、Python做爬虫的原因、爬虫的实现思路及常用库。还介绍了通用爬虫的工作流程、搜索引擎排名机制以及聚焦爬虫的概念。此外,探讨了爬虫与反爬虫的斗争,强调遵守 Robots 协议的重要性。
摘要由CSDN通过智能技术生成

通过前几期对爬虫的学习与分析,现做一下总结(文章结尾有惊喜):

一、“大数据时代”,数据获取的方式:

  1. 企业生产的用户数据:大型互联网公司有海量用户,所以他们积累数据有天然的优势。

有数据意识的中小型企业,也开始积累的数据。

  1. 数据管理咨询公司:通常这样的公司有很庞大的数据采集团队,一般会通过市场调研、问卷调查、固定的样本检测,

和各行各业的公司进行合作、专家对话(数据积累很多年了,最后得出科研结果)来采集数据。

  1. 政府/机构提供的公开数据:政府通过各地政府统计上报的数据进行合并;机构都是权威的第三方网站。

  2. 第三方数据平台购买数据:通过各个数据交易平台来购买各行各业需要的数据,根据获取难度不同,价格也会不同。

  3. 爬虫爬取数据:如果市场上没有我们需要的数据,或者价格太高不愿意买,那么就可以招/做一个爬虫工程师,从互联网上定向采集数据。

二、什么是爬虫?

爬虫:就是抓取网页数据的程序。

三、爬虫怎么抓取网页数据:

网页三大特征:

-1. 网页都有自己唯一的URL(统一资源定位符)来进行定位

-2. 网页都使用HTML (超文本标记语言)来描述页面信息。

-3. 网页都使用HTTP/HTTPS(超文本传输协议)协议来传输HTML数据。

爬虫的设计思路:

-1. 首先确定需要爬取的网页URL地址。

-2. 通过HTTP/HTTP协议来获取对应的HTML页面。

-3. 提取HTML页面里有用的数据:

a. 如果是需要的数据,就保存起来。

b. 如果是页面里的其他URL,那就继续执行第二步。

四、为什么选择Python做爬虫?

可以做爬虫的语言有很多,如 PHP、Java、C/C++、Python等等…

  • PHP 虽然是世界上最好的语言,但是他天生不是干这个的,而且对多线程、异步支持不够好,并发处理能力很弱。

爬虫是工具性程序,对速度和效率要求比较高。

  • Java 的网络爬虫生态圈也很完善,是Python爬虫最大的对手。但是Java语言本身很笨重,代码量很大。

重构成本比较高,任何修改

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值