爬虫
苏云南雁
喜爱技术,热爱学习,终身学习者
展开
-
HTTP响应状态码详解
总体来说,1.xx是说明信息2.xx表示http请求成功3.xx 表示重定向4.xx 客户端错误 其中404在写web时经常能看见,表示没有找到目录或文件5.xx 表示服务器错误1xx:信息100 Continue服务器仅接收到部分请求,但是一旦服务器并没有拒绝该请求,客户端应该继续发送其余的请求。101 Switching Protocols服务器转换协...原创 2018-10-01 18:10:14 · 561 阅读 · 0 评论 -
python爬虫1——python发送get、post请求、实现代理、保存cookie
目录一、urlopen方式二、增加Handler处理器 三、ProxyHandler处理器(代理设置)python2.7版本,通过urllib2发出请求一般有get、post方式发出请求一、urlopen方式get方式:response = urllib2.urlopen("http://www.baidu.com/")post方式:# 先定义data数据:...原创 2018-09-30 09:33:02 · 3377 阅读 · 0 评论 -
python爬虫6——模拟登陆人人网
用python怎么自动登录一个网站呢?之前我也有过这样的疑问,老自己去填,多麻烦啊,接下来这篇文章将讲解怎么用python2模拟登陆人人网。一、用fiddler查看登录信息模拟登陆第一步,用fiddler查看发出访问信息的请求:网页:输入多次后,会要求输入验证码:密码我这里输入的是123,找到这个访问请求:二、检索相关元素ok,找到了它的请求参数,下一步...原创 2018-11-10 17:40:58 · 863 阅读 · 0 评论 -
python爬虫7——XPath与lxml类库、xpath helper插件
有同学说,我正则用的不好,处理HTML文档很累,有没有其他的方法?有!那就是XPath,我们可以先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素。什么是XMLXML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标...原创 2018-11-10 22:26:41 · 396 阅读 · 0 评论 -
python爬虫5——正则表达式
正则表达式很好用,之前没有体会到它的强大,在写原生的servlet程序,调用微服务时,要经常拼接字符串,写sql,需求转换成代码,没有个灵活的工具处理,真的是会被烦死的。就用sublime_txt +正则表达式,贼好用! 为什么要学正则表达式实际上爬虫一共就四个主要步骤:明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没...原创 2018-11-07 21:53:42 · 176 阅读 · 0 评论 -
fiddler使用1——Fiddler抓取https设置详解(图文)
很多使用fiddler抓包,对于http来说不需太多纠结,随便设置下就能用,但是抓取https就死活抓不了,出现诸如以下问题:creation of the root certificate was not successful;Failed to find the root certificate in User Root List;The Root certificate co...原创 2018-11-21 16:20:58 · 637 阅读 · 0 评论