- 博客(5)
- 收藏
- 关注
原创 爬虫之POST请求
POST请求参数解析模块:urllib.request与get请求不同的是: get可以直接拼接参数完成req,post请求不能直接拼接参数url = "https://fanyi.baidu.com/sug"# 一个请求包含三部分内容:url、请求头、请求体(get请求请求体在url中)# post请求需要处理:以上三个内容headers = { "User-Agent"...
2018-09-18 14:54:32 3803
原创 常见http状态码
常见的http状态码100、101、102100:继续 客户端应当继续发送请求。客户端应当继续发送请求的剩余部分,或者如果请求已经完成,忽略这个响应。101: 转换协议 在发送完这个响应最后的空行后,服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。102:继续处理 由WebDAV(RFC 2518)扩展的状态码,代表处理将被继续...
2018-09-18 10:10:04 2132
原创 初识urllib原生框架
初识urllib原生框架爬虫流程:url处理 => 建立连接爬取数据 => 数据分析 => 数据存储import urllib.request # url相关的基本函数import urllib.parse # 导入parse,这个库主要用于处理url的格式问题基本函数介绍创建一个urlurl = "http://www.baidu.com/"urllib.r...
2018-09-18 10:06:44 177
原创 常见的http状态码
常见的http状态码100、101、102、200、201、202、204100:继续 客户端应当继续发送请求。客户端应当继续发送请求的剩余部分,或者如果请求已经完成,忽略这个响应。101: 转换协议 在发送完这个响应最后的空行后,服务器将会切换到在Upgrade消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。102:继续处理 由WebDAV(RFC 2518...
2018-09-18 09:33:03 327
原创 爬虫之简易原理
1、爬虫的概念 概念:Spider(网络蜘蛛),通过互联网生的一个个的节点,获取其中的数据,然后进行分析存储 爬虫的三个过程:数据的获取、数据的分析、数据的存储 爬虫的分类 通用爬虫: 主要用于搜索引擎,百度、谷歌、360、必应等 工作原理: 数据的获取=>网页的分析=>数据的存储=>对数据进行过滤清洗=>通过一个检索服务给用户提供...
2018-09-18 09:24:23 234
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人