1.认识网页结构和基本爬虫原理

最新推荐文章于 2024-01-11 11:17:10 发布

小咸鱼gogogo

最新推荐文章于 2024-01-11 11:17:10 发布

阅读量280

点赞数

分类专栏： python学习笔记

本文链接：https://blog.csdn.net/lanlan0923/article/details/84445215

版权

python学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.1.网页的组成：

HTML（超文本标记语言）
CSS（层叠样式表）
JScript（活动脚本语言）
首先，先写一个简单的html，大致了解一下。在txt中编写如下内容，然后将文件后缀.txt直接改为.html，最后运行即可。

<html>
<head>
<title>python爬虫学习笔记</title>
</head>
<body>
	<div>
		<p>python爬虫学习笔记</p>
	</div>
	<div>
	<ul>
		<li> <a href ="https://www.csdn.net">CSDN网站</a></li>
		<li> <a href ="https://www.baidu.com">百度网站</a></li>
	</ul>
	</div>
</body>
</html>

如果想了解更多，随便打开一个网页，然后【ctrl+U】打开源码。
在学习爬虫之前，熟悉网页的基本概念非常重要。：关于html基本知识参考网站

1.2.爬虫的基本原理
爬虫其实就是一个请求（request）和响应（response）的过程。请求（request）：即向服务器发送访问请求。响应（response）：即服务器收到用户的请求后，会验证请求的有效性，然后向用户（客户端）发送响应的内容。
网页请求（request）的方式有两种：get方式和post方式。