1.认识网页结构和基本爬虫原理

1.1.网页的组成:

  1. HTML(超文本标记语言)
  2. CSS(层叠样式表)
  3. JScript(活动脚本语言)
    首先,先写一个简单的html,大致了解一下。在txt中编写如下内容,然后将文件后缀.txt直接改为.html,最后运行即可。
<html>
<head>
<title>python爬虫学习笔记</title>
</head>
<body>
	<div>
		<p>python爬虫学习笔记</p>
	</div>
	<div>
	<ul>
		<li> <a href ="https://www.csdn.net">CSDN网站</a></li>
		<li> <a href ="https://www.baidu.com">百度网站</a></li>
	</ul>
	</div>
</body>
</html>

如果想了解更多,随便打开一个网页,然后【ctrl+U】打开源码。
在学习爬虫之前,熟悉网页的基本概念非常重要。:关于html基本知识参考网站

1.2.爬虫的基本原理
爬虫其实就是一个请求(request)和响应(response)的过程。请求(request):即向服务器发送访问请求。响应(response):即服务器收到用户的请求后,会验证请求的有效性,然后向用户(客户端)发送响应的内容。
网页请求(request)的方式有两种:get方式和post方式。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值