简单的python爬虫程序能够让用户从一个或多个网页中提取想要的信息。由于我最近需要爬取某个网页资源信息,所以开始入门python爬虫类的相关知识
博客中相关知识的介绍内容参考了菜鸟教程中的html语言和mooc慕课上嵩天老师的爬虫教程
写在前面
我的爬虫学习刚刚起步,最近需要做的事情和学习任务也占据了很多时间,越发觉得自己能力亟待提升。所以写这条博客在于帮助自己梳理爬虫的内容,以及分享一些有趣的知识以供交流。
推荐的内容
我主要根据mooc网课上北京理工大学的嵩天老师的课件和视频进行学习,嵩天老师的课件深入浅出,并且十分友好,注重实践,让python小白也能够快速入门和实战。
如果按照慕课的学习节奏,直接从requests库开始入门,网页解析出来的html文档总是让无html基础的人一头雾水,所以觉得简单学习一下html语言还是比较有必要的。
html语言介绍
HyperText Markup Language,超文本标记语言,用来创建网页的标准标记语言,简称html。顾名思义,超文本也就是将文本之外的内容用语言描绘出来,包括图片、视频、音频、链接等。
html并不是一种编程语言,而是一种标记语言,用来编写一个网页的源代码。一个网页可以用html语言编写,并被浏览器解析,从而呈现出可读的网页内容给用户。
我个人认为,在使用