![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
学习爬虫
文章平均质量分 65
疯狂打码中
新的开始,杨帆启航...加油
展开
-
学习爬虫基础-网页基础2
客户端HTTP请求URL只是标识资源的位置,而HTTP是用来提交和获取资源。客户端发送一个HTTP请求到服务器的请求消息,包括以下格式:请求行、请求头部、空行、请求数据四个部分组成,下图给出了请求报文的一般格式。 完整的请求实例:GET https://www.baidu.com/ HTTP/1.1Host: www.baidu.comConnection: keep-aliveUpgra原创 2017-07-16 23:37:06 · 678 阅读 · 0 评论 -
学习爬虫基础-网页基础1
爬虫基础关于Python网络爬虫,需要学习的有:Python基础语法学习(基础知识)对HTML页面的内容抓取(Crawl)对HTML页面的数据解析(Parse)动态HTML的处理/验证码的处理 (针对反爬处理)Scrapy框架以及scrapy-redis分布式策略(第三方框架)通用爬虫和聚焦爬虫根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种.通用爬虫通用网络爬虫 是 捜索引擎原创 2017-07-16 23:34:07 · 782 阅读 · 0 评论 -
学习爬虫基础3-urllib2库的基本使用
urllib2库的基本使用urllib2 是python2 中的产物 在python3 中 urllib2和urllib合并成了 urllib了 在 python3 中,urllib2 被改为urllib.request代码演示urlopen()方法:# 导入urllib2 库import urllib2# 向指定的url发送请求,并返回服务器响应的类文件对象response = urllib原创 2017-07-16 23:49:29 · 283 阅读 · 0 评论 -
学习爬虫基础5-一个简单的小案例
爬去百度贴吧中的html文档下来会使用到urllib中的 urllib.urlencode() 方法来编码发送请求时候的 请求参数 URL编码转换:urllib的urlencode()urllib 模块仅可以接受URL,不能创建 设置了headers 的Request 类实例;但是 urllib 提供 urlencode 方法用来产生GET查询字符串,而 urllib2 则没有。(这是 urlli原创 2017-07-16 23:59:51 · 1116 阅读 · 0 评论 -
学习爬虫基础6-HTTP响应状态码参考:
HTTP响应状态码参考:1xx:信息100 Continue 服务器仅接收到部分请求,但是一旦服务器并没有拒绝该请求,客户端应该继续发送其余的请求。 101 Switching Protocols 服务器转换协议:服务器将遵从客户的请求转换到另外一种协议。2xx:成功200 OK 请求成功(其后是对GET和POST请求的应答文档) 201 Created 请求被创建完成,同时新的资源被创原创 2017-07-18 10:00:41 · 464 阅读 · 0 评论 -
学习爬虫基础7-动态的去获取-json数据
动态的获取豆瓣电影的json数据进入豆瓣电影 查看源码,源码中并没有我们需要的数据,通过浏览器的检查功能中的 network ,可以看到页面上的数据是通过前端发送ajax请求,动态的获取的.这样我们就不能直接在html页面中获取到想要的数据了.解决的办法: 直接发送请求去后台获取到返回的json数据地址栏中的请求路径:根据需求检索的电影检索的结果前段发送的ajax请求 和返回的数据在heade原创 2017-07-18 15:28:22 · 5831 阅读 · 0 评论