写在前面
2022年,知识版权的保护越来越严格,爬虫编写者的生存空间逐渐变小,但有数据的地方就会有爬虫的存在,不能采集别人的站点,我们就自力更生,后续我给大家搭建自己的站点。
本系列文章是 《Python爬虫120》例的阶段知识补充,原因是部分群友反馈,爬虫120例都是案例,来写理论夯实一下基础。
既然这样,那我们就在补充20篇吧,不过都是1500字(排除代码外)的短篇博客,希望对大家有所帮助,暂定日更2篇,10天更完,然后收录到收费专栏中,现阶段免费学习,还不抓紧?
叨叨一下HTML
成为一个爬虫编写者很简单,学Python 一周就能操作几下,但是成为一个初级爬虫工程师,要学习的知识就非常多了
往浅了说,你前端HTML+CSS至少要了解一些,越熟悉,写爬虫越有利。
HTML 也是一种解释型的编程语言,学起来一点也不费劲,薄薄的一本书。
HTML 主要由标签和属性组成。
拿标签来说,一般都是成对出现的,你可以在现在的网页中执行鼠标右键,查看一下源代码,然后看一下能不能找到 <p>xxxxx</p>
这样的内容,如果找到了,恭喜你与HTML第一次进行了接触。
这里必须要补充一下,HTML还有但标签,例如 就是,注意和上述提及的 p 标签比对一下差异。
标签认识完毕,就要知道标