阅读资料写下关于爬虫的笔记:
1.爬虫的合法性
对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据,也就是该网站所有页面数据都可以爬取
2.了解网页
网页一般由三部分组成,分别是HTML(超文本标记语言)、CSS(层叠样式表)和JScrip(活动脚本语言)
(1)HTML
HTML是整个网页的结构,相当于整个网站的框架。
带“<”、“>”符号的都是属于HTML的标签,而且标签都是成对出现的。
例如:
<html>..</html> #表示标记中间的元素是网页
<body>..</body> #表示用户可见的内容
<div>..</div> #表示框架
<p>..</p> #表示段落
<li>..</li> #表示列表
<img>..</img> #表示图片
<h1>..</h1> #表示标题
<a href=" ">..</a> #表示超链接
(2)CSS
CSS表示样式,如:<style type="text/css">表示下面引用一个CSS,在CSS中定义了外观。
(3)JScript
JScript表示功能。交互的内容和各种特效都在JScript中,其描述了网站中的各种功能。
(如果用人体来比喻,HTML是骨架,CSS是外观细节,JScript是人的技能)
(4)写一个简单的HTML
打开记事本输入以下内容:
<html>
<head>
<title>Python3爬虫与数据清洗入门与实践</title>
</head>
<body>
<div>
<p>Python3爬虫与数据清洗入门与实践</p>
</div>
<div>
<ul>
<li><a href="http://www.baidu.com">爬虫</a></li>
<li>数据清洗</li>
</ul>
</div>
</body>
</html>
输入完后保存记事本,将其后缀改为.html或另存为将编码选择为UTF-8。
打开运行得到以下效果
3.爬虫的基本原理
(1)网页请求的过程
·Request(请求)
向服务器发送访问请求
·Response(响应)
服务器在接收到用户的请求后,会验证请求的有效性,然后向用户(客户端)发送响应的内容,客户端接收服务器响应的内容,将内容展示出来,就是我们熟悉的网页请求。
(2)网页请求的方式
GET:最常见的方式,一般用于获取或查询资源信息,响应很快
POST:相比GET方式,多了以表单形式上传参数的功能,因此除查询信息外,还可以修改信息。
所以,在写爬虫前要先确定向谁发送请求,用什么方式发送。
4.使用GET方式抓取数据
(此处需要在安装requests库,可在cmd中输入pip install requests来安装)
输入代码:
import requests
url='http://www.cntour.cn/'
strhtml=requests.get(url) #将获取到的数据存到strhtml变量中
print(strhtml.text) #strhtml是一个URL对象,表示网页中的源码
#加载库使用的语句是import+库的名字
#用GET方式获取数据需要调用requests库中的get方法,使用方法是在requests后输入英文点号:requests.get