第一章 开发环境配置
略(遇到再补充)
第二章 爬虫基础
HTTP和HTTPS
URL的开头会有http和https,这是访问资源需要的协议类型。有时,我们还会看到ftp、sftp、smb开头的URL,他们都是协议类型。在爬虫中,我们抓取的页面通常就是 http 或 https 协议的。
HTTP 中文名叫做超文本传输协议,目前广泛使用的是 HTTP 1.1 版本。
HTTPS简单讲是 HTTP 的安全版,即 HTTP 下加入 SSL 层,简称为HTTPS。
而某些网站虽然使用了 HTTPS 协议还是会被浏览器提示不安全,例如 12306。这是因为 12306 的 CA 证书是中国铁道部自己颁发给自己的,而这个证书是不被官方机构认可的,所以这里证书验证就不会通过而提示这样的话,但是实际上它的数据传输依然是经过 SSL 加密的。我们如果要爬取这样的站点就需要设置忽略证书的选项,否则会提示 SSL 链接错误,在后文会进行详细说明。
网页基础
网页分为三大部分——HTML、CSS和JavaScript。
F12 右侧 HTML,整个网页由各种标签嵌套组合而成,这些标签定义的节点元素相互嵌套和组合形成复杂的层次关系,就形成了网页的框架。
左侧为CSS ,CSS 层叠样式表。样式指网页中文字大小、颜色、元素间距、排列等格式。它可以让页面变得更美观。
JavaScript,简称js 为网页提供实时,动态,交互的页面功能。js通常以单独的文件形式加载,后缀为js,通过script标签引入。
html、css、js 都是前端
asp、jsp、php… 是后端
页面的结构
新建一个文本文件,重命名为1.html。内容如下:
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>This is a test</title>
</head>
<body>
<div id="container">
<div class="wrapper">
<h2 class="text">hello world</h2>
<p class="text">hello,this is a paragraph.</p>
</div>
</div>
</body>
</html>
html的后缀有 .html 或htm
DOCTYPE html 定义文档类型
<html> html的开头 </html> 文件结尾
<head>文件头开始
<body>文件主体开开始
虽然html是门松散的语言,但是为了良好的编程习惯,平时使用时这些标签最好成对使用。(不允许交替出现)
meta标记 是头文件里面的,定义相关信息。
meta name=“……” content=“……” 这类类型可以帮助搜索引擎收录
第三章 基本库的使用
使用request
使用get()访问百度
import requests
r=requests.get('https://www.baidu.com/')
print(type(r))
print(r.status_code)
print(type(r.text))
print(r.text)
print(r.cookies)
我们使用get()方式得到一个 Response的对象。
<class ‘requests.models.Response’>
使用其他的请求类型
get请求
HTTP中最常见的请求之一就是GET请求
import requests
r=requests.get('http://www.httpbin.org/get')
print(r.text)
一般get请求带参数,可以使用下面两种方法:
或者:
import requests
data={
'na