01 - Python爬虫入门前导知识

最新推荐文章于 2023-06-15 16:53:29 发布

傲寒

最新推荐文章于 2023-06-15 16:53:29 发布

阅读量408

点赞数 1

分类专栏： Python爬虫

本文链接：https://blog.csdn.net/qq_43407841/article/details/105909426

版权

⽹络爬⾍（⼜被称为⽹⻚蜘蛛，⽹络机器⼈）就是模拟客户端发送⽹络请求，接收请求响应，⼀种按照⼀定的规则，⾃动地抓取互联⽹信息的程序。只要是浏览器能做的事情，原则上，爬⾍都能够做
为什么需要爬虫
- 为其他程序提供数据源如搜索引擎(百度、Google等)、数据分析、大数据等等
Python做爬虫有哪些优势
- PHP : 对多线程、异步支持不太好
- Java : 代码量大，代码笨重
- C/C++ : 代码量大，难以编写
- Python : 支持模块多、代码简介、开发效率高 (scrapy框架)
Python如何爬取网页上的数据
- 网页三大特征：
  - 网页都有自己唯一的URL
  - 网页均由HTML描述其内容
  - 网页都使用HTTP/HTTPS协议传输HTML数据
- 爬虫设计思路：
  - 确定爬取的URL地址
  - 通过HTTP/HTTPS获取对应的HTML页面
  - 提取页面有用信息

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注