学习爬虫_疯狂打码中的博客-CSDN博客

学习爬虫

关注

文章平均质量分 65

关注数：文章数：6 文章阅读量：9151 文章收藏量：13

作者: 疯狂打码中

新的开始,杨帆启航...加油

展开

学习爬虫基础-网页基础2

客户端HTTP请求URL只是标识资源的位置，而HTTP是用来提交和获取资源。客户端发送一个HTTP请求到服务器的请求消息，包括以下格式：请求行、请求头部、空行、请求数据四个部分组成，下图给出了请求报文的一般格式。完整的请求实例：GET https://www.baidu.com/ HTTP/1.1Host: www.baidu.comConnection: keep-aliveUpgra

原创 2017-07-16 23:37:06 · 678 阅读 · 0 评论
学习爬虫基础-网页基础1

爬虫基础关于Python网络爬虫，需要学习的有：Python基础语法学习（基础知识）对HTML页面的内容抓取（Crawl）对HTML页面的数据解析（Parse）动态HTML的处理/验证码的处理 (针对反爬处理)Scrapy框架以及scrapy-redis分布式策略（第三方框架）通用爬虫和聚焦爬虫根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种.通用爬虫通用网络爬虫是捜索引擎

原创 2017-07-16 23:34:07 · 782 阅读 · 0 评论
学习爬虫基础3-urllib2库的基本使用

urllib2库的基本使用urllib2 是python2 中的产物在python3 中 urllib2和urllib合并成了 urllib了在 python3 中，urllib2 被改为urllib.request代码演示urlopen（）方法：# 导入urllib2 库import urllib2# 向指定的url发送请求，并返回服务器响应的类文件对象response = urllib

原创 2017-07-16 23:49:29 · 283 阅读 · 0 评论
学习爬虫基础5-一个简单的小案例

爬去百度贴吧中的html文档下来会使用到urllib中的 urllib.urlencode() 方法来编码发送请求时候的请求参数 URL编码转换：urllib的urlencode()urllib 模块仅可以接受URL，不能创建设置了headers 的Request 类实例；但是 urllib 提供 urlencode 方法用来产生GET查询字符串，而 urllib2 则没有。（这是 urlli

原创 2017-07-16 23:59:51 · 1116 阅读 · 0 评论
学习爬虫基础6-HTTP响应状态码参考：

HTTP响应状态码参考：1xx:信息100 Continue 服务器仅接收到部分请求，但是一旦服务器并没有拒绝该请求，客户端应该继续发送其余的请求。 101 Switching Protocols 服务器转换协议：服务器将遵从客户的请求转换到另外一种协议。2xx:成功200 OK 请求成功（其后是对GET和POST请求的应答文档） 201 Created 请求被创建完成，同时新的资源被创

原创 2017-07-18 10:00:41 · 464 阅读 · 0 评论
学习爬虫基础7-动态的去获取-json数据

动态的获取豆瓣电影的json数据进入豆瓣电影查看源码,源码中并没有我们需要的数据,通过浏览器的检查功能中的 network ,可以看到页面上的数据是通过前端发送ajax请求,动态的获取的.这样我们就不能直接在html页面中获取到想要的数据了.解决的办法: 直接发送请求去后台获取到返回的json数据地址栏中的请求路径:根据需求检索的电影检索的结果前段发送的ajax请求和返回的数据在heade

原创 2017-07-18 15:28:22 · 5831 阅读 · 0 评论

学习爬虫

作者: 疯狂打码中

学习爬虫基础-网页基础2

学习爬虫基础-网页基础1

学习爬虫基础3-urllib2库的基本使用

学习爬虫基础5-一个简单的小案例

学习爬虫基础6-HTTP响应状态码参考：

学习爬虫基础7-动态的去获取-json数据