2018年09月_Lino_Sun

09月

原创爬虫之POST请求

POST请求参数解析模块：urllib.request与get请求不同的是： get可以直接拼接参数完成req，post请求不能直接拼接参数url = "https://fanyi.baidu.com/sug"# 一个请求包含三部分内容：url、请求头、请求体（get请求请求体在url中）# post请求需要处理：以上三个内容headers = { "User-Agent"...

2018-09-18 14:54:32 3803

原创常见http状态码

常见的http状态码100、101、102100：继续客户端应当继续发送请求。客户端应当继续发送请求的剩余部分，或者如果请求已经完成，忽略这个响应。101：转换协议在发送完这个响应最后的空行后，服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。102：继续处理由WebDAV（RFC 2518）扩展的状态码，代表处理将被继续...

2018-09-18 10:10:04 2132

原创初识urllib原生框架

初识urllib原生框架爬虫流程：url处理 => 建立连接爬取数据 => 数据分析 => 数据存储import urllib.request # url相关的基本函数import urllib.parse # 导入parse，这个库主要用于处理url的格式问题基本函数介绍创建一个urlurl = "http://www.baidu.com/"urllib.r...

2018-09-18 10:06:44 177

原创常见的http状态码

常见的http状态码100、101、102、200、201、202、204100：继续客户端应当继续发送请求。客户端应当继续发送请求的剩余部分，或者如果请求已经完成，忽略这个响应。101：转换协议在发送完这个响应最后的空行后，服务器将会切换到在Upgrade消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。102：继续处理由WebDAV（RFC 2518...

2018-09-18 09:33:03 327

原创爬虫之简易原理

1、爬虫的概念概念：Spider（网络蜘蛛），通过互联网生的一个个的节点，获取其中的数据，然后进行分析存储爬虫的三个过程：数据的获取、数据的分析、数据的存储爬虫的分类通用爬虫：主要用于搜索引擎，百度、谷歌、360、必应等工作原理：数据的获取=>网页的分析=>数据的存储=>对数据进行过滤清洗=>通过一个检索服务给用户提供...

2018-09-18 09:24:23 234

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 爬虫之POST请求

原创 常见http状态码

原创 初识urllib原生框架

原创 常见的http状态码

原创 爬虫之简易原理

空空如也

空空如也

原创爬虫之POST请求

原创常见http状态码

原创初识urllib原生框架

原创常见的http状态码

原创爬虫之简易原理