1.1.网页的组成:
- HTML(超文本标记语言)
- CSS(层叠样式表)
- JScript(活动脚本语言)
首先,先写一个简单的html,大致了解一下。在txt中编写如下内容,然后将文件后缀.txt直接改为.html,最后运行即可。
<html>
<head>
<title>python爬虫学习笔记</title>
</head>
<body>
<div>
<p>python爬虫学习笔记</p>
</div>
<div>
<ul>
<li> <a href ="https://www.csdn.net">CSDN网站</a></li>
<li> <a href ="https://www.baidu.com">百度网站</a></li>
</ul>
</div>
</body>
</html>
如果想了解更多,随便打开一个网页,然后【ctrl+U】打开源码。
在学习爬虫之前,熟悉网页的基本概念非常重要。:关于html基本知识参考网站
1.2.爬虫的基本原理
爬虫其实就是一个请求(request)和响应(response)的过程。请求(request):即向服务器发送访问请求。响应(response):即服务器收到用户的请求后,会验证请求的有效性,然后向用户(客户端)发送响应的内容。
网页请求(request)的方式有两种:get方式和post方式。