在之前的学习过程中,我们学习了一些基本的请求方式,但是我们请求来的页面,几乎没有什么用,之后的学习让我们开始学习使用这些源码。
首先这是一种叫做html的编程语言,它的主要构成了很多的网页标签,标签表示一种记号,开始或结束、换行等,都需要标签来支撑。
而这些标签里往往包含着我们需要的内容,比如图片链接、网站链接、禁止复制的内容等等。html开头会有一个万能开头:
<!DOCTYPE html>
然后,会有一段以<html>开头,以</html>结尾的段落,里面的内容全部缩进两格,然后是head和body分别表示开头和正文。这些就是html的简单框架。
从这篇文章开始,我们开始提取一些网页源码里面的信息,以便于爬取数据。