python scrapy
光尘92
这个作者很懒,什么都没留下…
展开
-
python之_requests库学习_5(超时与异常)
一、超时 可以告诉 requests 在经过以 timeout 参数设定的秒数时间之后停止等待响应。 连接超时指的是在你的客户端实现到远端机器端口的连接时Request 会等待的秒数。一个很好的实践方法是把连接超时设为比 3 的倍数略大的一个数值,因为 TCP 数据包重传...转载 2018-09-05 16:22:20 · 366 阅读 · 0 评论 -
urllib与requests的对比
在HTTP相关处理中使用python是不必要的麻烦,这包括urllib2模块以巨大的复杂性代价获取综合性的功能。相比于urllib2,Kenneth Reitz的Requests模块更能简约的支持完整的简单用例。简单的例子: 想象下我们试图使用get方法从http://example.test/获取资源并且查看返回代码,content-type头信息,还有response的主体内容。这件事无...转载 2018-09-06 16:26:02 · 1152 阅读 · 0 评论 -
BeautifulSoup解析
官方文档:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/一、解析器 解析器 使用方法 优势 劣势 Python标准库 BeautifulSoup(markup, "html.parser") Pytho...原创 2018-09-06 15:59:05 · 219 阅读 · 0 评论 -
python爬虫基础知识
什么是爬虫?爬虫:就是抓取网页数据的程序。HTTP和HTTPSHTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层。SSL(Secure ...原创 2018-09-06 10:31:04 · 592 阅读 · 0 评论 -
httplib模块
httplib是一个相对底层的http请求模块,其上有专门的包装模块,如urllib内建模块,goto等第三方模块,但是封装的越高就越不灵活,比如urllib模块里请求错误时就不会返回结果页的内容,只有头信息,对于某些需要检测错误请求返回值的场景就不适用,所以就得用这个模块了。目录1. httplib.HTTPConnection2. HTTPConnection对象request方法...原创 2018-09-05 17:29:06 · 5676 阅读 · 0 评论 -
urlparse 模块
urlparse模块主要是用于解析url中的参数 对url按照一定格式进行 拆分或拼接 1. urlparse.urlparse将url分为6个部分,返回一个包含6个字符串项目的元组:scheme协议、netloc域名服务器、path相对路径、params参数、query查询、fragment片段。2. urlparse.parse_qs获取urlparse分割后元祖中的某一...原创 2018-09-05 17:26:37 · 1118 阅读 · 0 评论 -
urllib和urllib2实例
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,先学习urllib2。urllib2模块直接导入就可以用,在python3中urllib2被改为urllib.request开始爬虫需要准备的一些工具(1)下载Fiddeler抓包工具,百度直接下载安装就可以(抓包)(2)下载chrome浏览器代理插件 Prox...转载 2018-09-05 16:55:54 · 275 阅读 · 0 评论 -
python之_requests库学习_2(post请求参数传递)
一、定制请求头 定义headers,类型为dictimport requestsurl = 'https://api.douban.com/v2/book/search?q=小王子'headers={'user-agent': 'Mozilla/5.0'}r ...转载 2018-09-05 15:30:44 · 2534 阅读 · 0 评论 -
python之_requests库学习_1(基础知识)
在自动化测试框架的学习中,除了以selenium+python你的UI自动化框架的编写,还有接口自动化框架的编写,其中requests库则是一个非常需要的python库,且requests库非常强大,目前的爬虫如果用python语言编写也需要用到requests库,下面先来学...转载 2018-09-05 16:00:05 · 170 阅读 · 0 评论 -
python之_requests库学习_3(请求响应信息获取)
一、响应内容信息获取 1、响应状态码import requestsr = requests.get('https://api.github.com/some/endpoint')print(r.status_code) #响应状态码print(r.status...转载 2018-09-05 16:20:23 · 2278 阅读 · 0 评论 -
python之_requests库学习_4(session会话)
前面几篇学习了requests库的一些基础知识,接下来学习它更高级的用法 一、会话对象session 1、session对象能够帮我们跨请求保持某些参数,也会在同一个session实例发出的所有请求之间保持cookies。import requestss=req...转载 2018-09-05 16:21:30 · 569 阅读 · 0 评论 -
爬虫突破封禁的6种常见方法
内容整理自《Python 网络数据采集》第 10、12、14 章 在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息。本文假定读者已经了解如何用代...转载 2018-09-19 10:08:46 · 4417 阅读 · 0 评论