网页数据抓包入门教程上
最近几年python火了,很多小伙伴业内的业外的都想要学一学,但是我在网上搜教程,发现知识都很散,没有一条系统的主线可以串联,导致很多小伙伴在自学的时候往往需要浪费很多不必要的时间;我一直认为,人的脑容量是有限的,我们不可能在短时间内掌握所有的知识,所以我们在短时间内只需要定一个小目标,然后把完成这个目标的大纲或者目录拿下来,最后需要用什么,再跟随目录去学习,掌握需要用到的内容,这样才能最大化自己大脑算力的利用率。
这一次我想要系统的把爬虫讲一讲;作为入门后学习的第一阶段,用爬虫来让自己的编程思维与学习的计算机语言交流方式融会贯通是非常有效且有利的,毕竟爬虫也是近年来的热门,在这个领域能做好也是能有不错收益的。以下我将介绍以下我的教程大纲,希望大家能够帮助大家构建自己学习目录:
一 . 网页数据的基本认识
- 认识链接(URI与URL)
- 认识网页的语言(HTML)
- 网页的构成()
二 . 网页的爬取
- 认识爬虫协议
- 书写爬虫程序
- 数据持久化
- 代理ip的使用(补充)
三 . 多线程操作
- 线程
- 线程池
以上是我接下来的教程大纲,当然,在接下来的实际教程中有些时候我也会对局部进行拓展,大家按需学习,话不多说,开始我们的学习吧