python爬虫入门——html(xml)语言知识

本文作为python爬虫的入门,简要介绍了html语言,强调理解元素、嵌套关系和属性对于爬虫解析网页的重要性。通过学习html基础,作者结合实例展示了如何在爬虫中抓取所需信息,如视频标题,强调实践中学习的重要性。
摘要由CSDN通过智能技术生成

简单的python爬虫程序能够让用户从一个或多个网页中提取想要的信息。由于我最近需要爬取某个网页资源信息,所以开始入门python爬虫类的相关知识
博客中相关知识的介绍内容参考了菜鸟教程中的html语言和mooc慕课上嵩天老师的爬虫教程

写在前面

我的爬虫学习刚刚起步,最近需要做的事情和学习任务也占据了很多时间,越发觉得自己能力亟待提升。所以写这条博客在于帮助自己梳理爬虫的内容,以及分享一些有趣的知识以供交流。

推荐的内容

我主要根据mooc网课上北京理工大学的嵩天老师的课件和视频进行学习,嵩天老师的课件深入浅出,并且十分友好,注重实践,让python小白也能够快速入门和实战。
如果按照慕课的学习节奏,直接从requests库开始入门,网页解析出来的html文档总是让无html基础的人一头雾水,所以觉得简单学习一下html语言还是比较有必要的。
f1

html语言介绍

HyperText Markup Language,超文本标记语言,用来创建网页的标准标记语言,简称html。顾名思义,超文本也就是将文本之外的内容用语言描绘出来,包括图片、视频、音频、链接等。
html并不是一种编程语言,而是一种标记语言,用来编写一个网页的源代码。一个网页可以用html语言编写,并被浏览器解析,从而呈现出可读的网页内容给用户。
我个人认为,在使用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值