超详细Python爬虫自学整理从基础内容开始到进阶(不断更新)(Anaconda中的Spyder)

本文详细介绍了Python爬虫的学习路径,包括网页构造、爬虫的合法性、工作流程、实现语言和Python爬虫的使用。强调了HTML、CSS、JScript在网页构造中的作用,解释了爬虫的合法性与robots.txt文件的关系,以及Python在爬虫中的应用,特别是使用Anaconda中的Spyder作为IDE。此外,还展示了如何使用Python的urllib和requests库进行网页抓取,以及正则表达式进行内容匹配。
摘要由CSDN通过智能技术生成

本文通过学习其他网站的内容,展示自己学习的过程,标出出现的问题并给出解决方案。本文多数是引用,也含有大量自己查找资料和试错进行的补充。
引用内容的链接:
核心引用:
Python爬虫入门教程:超级简单的Python爬虫教程:
http://c.biancheng.net/view/2011.html
部分补充:
python爬虫的原理介绍:
https://blog.csdn.net/wapecheng/article/details/93519747
爬虫的基本原理:
https://zhuanlan.zhihu.com/p/66375984

一.网页构造:

在这里插入图片描述

  • 1.网页标签

网页一般由三部分组成,分别是 HTML(超文本标记语言)、CSS(层叠样式表)和 JScript(活动脚本语言)。
HTML
HTML 是整个网页的结构,相当于整个网站的框架。带“<”、“>”符号的都是属于 HTML 的标签,并且标签都是成对出现的。

常见的标签如下:
在这里插入图片描述
备注:其中div全称:DIVision,是层叠样式表中的定位技术
href是Hypertext Reference的缩写。 意思是指定超链接目标的URL
/
<br/>表示换行操作,全称break (在编译md文件时使用\是字符转义,
为换行,\ <br>则直接输出<br>)

  • 2.CSS图形样式

CSS 表示样式,<style type="text/css">表示下面引用一个 CSS,在 CSS 中定义了外观。
JScript
JScript 表示功能。交互的内容和各种特效都在 JScript 中,JScript 描述了网站中的各种功能。

  • 3.JScript

JScript 表示功能。交互的内容和各种特效都在 JScript 中,JScript 描述了网站中的各种功能。

如果用人体来比喻,HTML 是人的骨架,并且定义了人的嘴巴、眼睛、耳朵等要长在哪里。CSS 是人的外观细节,如嘴巴长什么样子,眼睛是双眼皮还是单眼皮,是大眼睛还是小眼睛,皮肤是黑色的还是白色的等。JScript 表示人的技能,例如跳舞、唱歌或者演奏乐器等。

在我搭建自己的博客的时候借鉴t他人的模板里面经常会看到一些JScript插件,这些插件可以实现非常丰富的功能,例如人机交互的图案(移动鼠标将会在相应的位置出现图形),酷炫的效果等等。
以下是我未将主页上传到服务器,仅仅搭建好Apache+php+mysql(LAMP)时的效果,个人主页暂时未上传。目前可以访问alvincr.com并使用ctrl+u进行查看源代码
在这里插入图片描述

二.关于爬虫的合法性

几乎每一个网站都有一个名为 robots.txt 的文档,当然也有部分网站没有设定 robots.txt。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据,也就是该网站所有页面数据都可以爬取。如果网站有 robots.txt 文档,就要判断是否有禁止访客获取的数据。

搜索引擎获取一个新网站的 URL:
(1) 新网站向搜索引擎主动提交网址:(如百度 http://zhanzhang.baidu.com/linksubmit/url)
(2)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值