python爬虫自学宝典——引言

最新推荐文章于 2024-04-05 19:43:46 发布

良木66

最新推荐文章于 2024-04-05 19:43:46 发布

阅读量945

点赞数

分类专栏： python scrapy

本文链接：https://blog.csdn.net/qq_44503987/article/details/104963219

版权

python 同时被 2 个专栏收录

22 篇文章 0 订阅

订阅专栏

scrapy

14 篇文章 4 订阅

订阅专栏

在下本身才疏学浅，也谈不上多么多么牛逼，就是想做一些自己喜欢的事情。比如学习，看书，旅游等等。
python爬虫自学宝典就是给自己做的手稿，看的人若是能得到启发，那是在下之幸；若得不到，那是在下的手笔，才学还没有到一定高度。此文章，仅仅供阁位消遣阅读，本人也是一个大学生，无非就是喜欢学点新奇的东西而已。若是有不对的地方，还望各位大佬一一斧正。若是有疑惑的朋友，可以在下方评论区留言，咱们可以交流交流。

Scrapy简介

数据从何而来？又去往何处?很多和我一样的大学生，很少思考这个问题。网上如此多的数据，是怎么形成的？即使全球70多亿人口全是互联网用户，每个人不停的生产数据信息，那也不是现在互联网上数据应有的量。简而言之，我们人类亲手造的数据信息，不考虑数据再生数据的情况下，犹如地球和太阳相比，远远无法形成现在互联网数据量的规模。
Scrapy技术，也称爬虫技术，就是为收集数据，处理分析数据，再生数据而生的。例如百度，百度就是超级大爬虫，不然用户输入信息，百度何以检索到准确的信息反馈给用户呢？
当然，学习Scrapy不能仅仅局限于scrapy，Java也有实现爬虫的技术，python也可以通过urllib和re实现爬虫项目。但是目前据我所知，Scrapy是最简便，最易用的爬虫技术。
回答第一个问题：爬虫究竟是什么？
答案：爬虫就是检索数据，从互联网上抓取自己想要的数据，并把这些数据存入你想要存入的位置，例如数据库，文档系统等的一种程序工具。
回答第二个问题：爬虫能干什么？
答案：爬虫可以将爬取的数据上传给使用爬虫的人，将爬虫爬取的数据进行处理分析，从而产生有益于使用爬虫技术的人的数据。简而言之，就是爬数据，自己想干嘛就干嘛。
回答第三个问题：爬虫犯法吗？
答案：爬虫不违法,违法的是不遵从网站的爬虫协议,对网站造成负担,对正常用户造成影响。

爬虫的核心工作

1、通过网络向制定的URL发送请求，获取服务器的响应。
2、使用某种技术（正则表达式，Xpath等）提取页面的信息。
3、高效的识别响应页面中的链接信息，顺着这些链接递归执行上述第一、二步。
4、使用多线程有效的管理网络通信交互。
注：使用正则表达式虽然可以实现核心工作，但是正则表达式的效率没有Xpath高，所以我推荐用XPATH来进行爬取数据。

总结

爬虫仅仅是一门技术，学爬虫没有想的那么难，只要掌握好框架，就可以顺利运用爬虫技术。但我还是坚信一点，知道怎么用是不够的，要知道他的运行机制，基础架构是非常重要的。本人也不太懂他的基础架构，因为本人也是正在学习这些东西。运行机制，我还是懂的，欢迎看本人接下来的文章。
引用评书中的一句话就是：欲知后事如何，且听下回分解。

良木66

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬虫自学宝典——引言

在下本身才疏学浅，也谈不上多么多么牛逼，就是想做一些自己喜欢的事情。比如学习，看书，旅游等等。python爬虫自学宝典就是给自己做的手稿，看的人若是能得到启发，那是在下之幸；若得不到，那是在下的手笔，才学还没有到一定高度。此文章，仅仅供阁位消遣，本人也是一个大学生，无非就是喜欢学点新奇的东西而已。若是有不对的地方，还望各位大佬一一斧正。Scrapy简介数据从何而来？又去往何处?很多和我一样的...
复制链接

扫一扫

专栏目录