Spider
张博208
知识搬运工
展开
-
python爬虫入门笔记:Requests库
[-]Python Requests快速入门快速上手发送请求为URL传递参数响应内容二进制响应内容JSON响应内容原始响应内容定制请求头更加复杂的POST请求POST一个多部分编码Multipart-Encoded的文件响应状态码响应头Cookies重定向与请求历史超时错误与异常Python Requests快速入门快速上手迫不及待了转载 2017-05-14 10:47:56 · 641 阅读 · 0 评论 -
Python爬虫利器二之Beautiful Soup的用法
http://cuiqingcai.com/1319.html上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便,这一节就让我们一起来感受一下B转载 2017-05-14 10:57:44 · 722 阅读 · 0 评论 -
Python爬虫入门七之正则表达式
http://cuiqingcai.com/977.html在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字转载 2017-05-14 11:07:59 · 318 阅读 · 0 评论 -
Python-第三方库requests详解
Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的,所以它比 urllib 更加 Pythoner。更重要的一点是它支持 Python3 哦!Beautiful转载 2017-05-14 10:46:55 · 583 阅读 · 0 评论 -
网络爬虫 学习笔记
利用chrome浏览器, 检查,---Network--doc 重新载入 第一个选择检查元素,查到对应的标签import requestsfrom bs4 import BeautifulSoupnewsurl='http://news.sina.com.cn/china/'res=requests.get(newsurl) #用chrome查看,知道是get方法,在原创 2017-05-13 22:44:49 · 355 阅读 · 0 评论 -
Python2中的urllib、urllib2与Python3中的urllib以及第三方模块requests
先说说Python2中的url与urllib2(参考此处):在python2中,urllib和urllib2都是接受URL请求的相关模块,但是提供了不同的功能。两个最显著的不同如下:1、urllib2可以接受一个Request类的实例来设置URL请求的headers,例如:[python] view plain copy转载 2017-05-14 14:08:57 · 446 阅读 · 0 评论