python爬虫笔记（二）爬虫原理

子昊的风筝

于 2018-04-12 23:27:35 发布

阅读量153

点赞数

分类专栏： PYTHON爬虫学习笔记

本文链接：https://blog.csdn.net/megrez744/article/details/79918310

版权

PYTHON爬虫学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

爬虫：请求网站并提取数据的自动化程序

浏览器F12的html代码中的信息就是爬取的目标

request到response

浏览器发送消息（请求）到服务器，这个过程叫HTTP Request
服务器返回浏览器信息，HTTP Response
浏览器处理信息，展示

request

常用请求方式 GET、POST，post请求需要构造表单进行请求，数据不会暴露在url中

url统一资源定位符

请求头

HTML、JSON

AJAX——JSON解析

注意下面的示例，python中 '\' 是转义的含义，那么

从windows资源管理器中直接复制地址会导致文件写入错误（路径错误）[Errno 22] Invalid argument

import requests response = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif') print(response.content) with open('C:\FeigeDownload\1.gif','wb')as f: f.write(response.content) f.close

import requests
response = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif')
print(response.content)
with open('C:/FeigeDownload/1.gif','wb')as f:
    f.write(response.content)
    f.close