python爬虫之入门原理

最新推荐文章于 2024-07-27 17:39:19 发布

lcd_18366139236

最新推荐文章于 2024-07-27 17:39:19 发布

阅读量139

点赞数

分类专栏：技术总结文章标签： python

本文链接：https://blog.csdn.net/lcd_18366139236/article/details/104864677

版权

技术总结专栏收录该内容

2 篇文章 0 订阅

订阅专栏

现在python编程真是火到爆啊，上至五十多岁的潘石屹大叔，下至很多小学生都在学python。为什么呢？因为python好玩且有用啊！python可以做很多事情：自动化办公、爬虫、web、数据分析、人工智能~基本上目前业界的需求都可以在python中找到相应的库去实现。只是相对来说python更擅长一些领域而已。爬虫就是这样一个领域
什么是网络爬虫呢？
它还有一个名字，叫Spider-网络蜘蛛。意思是它可以在网络上爬来爬去获取一些信息。就像我们的浏览器可以输入网页访问很多网站一样，爬虫只不过是把这种访问网页的功能用代码去实现。理论上讲，浏览器可以做到的网页访问所有的相关功能，爬虫都可以实现！
爬虫的技术原理是什么呢
爬虫的技术原理应该是颇有名气http协议了，说白了就是一个信息传送协议，由于这个协议可以传送一些图片、视频、声音啥的，这些信息已经超出单纯文本的范畴，所以这个协议叫做超文本传输协议。它的实现过程是啥呢？简单来说就是你的电脑发起一个请求，网站服务器接收到这个请求，并根据你的请求内容返回相关数据，这个返回的数据还有个名字叫做：响应。说白了就是你发起请求，服务器去响应……完了
爬虫在业界的应用有哪些呢？
百度、谷歌、必应这些搜索引擎每天都是通过不间断的爬取网络上面内容来扩充他们的数据库，为互联网提供搜索服务，所以它们的核心技术之一就是爬虫；现在正火的大数据、人工智能技术，本质上就是对数据的训练、建模处理，它们的数据来源很多也是通过爬虫。总结下来就是四个字：获取数据。
爬虫可以获取互联网上所有的数据吗？
想多了……就像浏览器只能访问网站开放的数据一样，爬虫正常来说也只能获取网站对公众发布的信息。从技术上讲，是有一些技术爆表的人可以获取网站数据库上不对外开放的信息；从法律上来说，获取网站不对外开放的数据如果给对方造成商业损失，需要承担法律责任！
以上就是爬虫的一些原理、功能的简单介绍了，后续还会总结一些具体实现的技术！！