自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Lino呀

学习笔记,技术分享

  • 博客(5)
  • 收藏
  • 关注

原创 爬虫之POST请求

POST请求参数解析模块:urllib.request与get请求不同的是:​ get可以直接拼接参数完成req,post请求不能直接拼接参数url = "https://fanyi.baidu.com/sug"# 一个请求包含三部分内容:url、请求头、请求体(get请求请求体在url中)# post请求需要处理:以上三个内容headers = { "User-Agent"...

2018-09-18 14:54:32 3803

原创 常见http状态码

常见的http状态码100、101、102100:继续 客户端应当继续发送请求。客户端应当继续发送请求的剩余部分,或者如果请求已经完成,忽略这个响应。101: 转换协议 在发送完这个响应最后的空行后,服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。102:继续处理 由WebDAV(RFC 2518)扩展的状态码,代表处理将被继续...

2018-09-18 10:10:04 2132

原创 初识urllib原生框架

初识urllib原生框架爬虫流程:url处理 => 建立连接爬取数据 => 数据分析 => 数据存储import urllib.request # url相关的基本函数import urllib.parse # 导入parse,这个库主要用于处理url的格式问题基本函数介绍创建一个urlurl = "http://www.baidu.com/"urllib.r...

2018-09-18 10:06:44 177

原创 常见的http状态码

常见的http状态码100、101、102、200、201、202、204100:继续 客户端应当继续发送请求。客户端应当继续发送请求的剩余部分,或者如果请求已经完成,忽略这个响应。101: 转换协议 在发送完这个响应最后的空行后,服务器将会切换到在Upgrade消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。102:继续处理 由WebDAV(RFC 2518...

2018-09-18 09:33:03 327

原创 爬虫之简易原理

1、爬虫的概念​ 概念:Spider(网络蜘蛛),通过互联网生的一个个的节点,获取其中的数据,然后进行分析存储​ 爬虫的三个过程:数据的获取、数据的分析、数据的存储​ 爬虫的分类​ 通用爬虫:​ 主要用于搜索引擎,百度、谷歌、360、必应等​ 工作原理:​ 数据的获取=>网页的分析=>数据的存储=>对数据进行过滤清洗=>通过一个检索服务给用户提供...

2018-09-18 09:24:23 234

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除