爬虫
文章平均质量分 77
TENLIU2099
这个作者很懒,什么都没留下…
展开
-
tenliu的爬虫(1)-爬虫知识整理大纲
更多内容请访问我的个人博客www.tenliu.top爬虫看似简单,但是深入学习还是挺有意思的。我学习爬虫也有段时间了,现在开这个专题,算是一个回顾。在这里列一个大纲:基本爬虫知识python库urllib、urllib2、requests urllib、urllib2、request三者关系urllib学习urllib2学习requests学习ps:如何用浏览器抓包分析ps原创 2018-01-11 16:34:54 · 674 阅读 · 0 评论 -
tenliu的爬虫-抓包分析
利用浏览器抓包,是爬虫中的很实用的技能。在爬虫编程之前,我们要对抓取的目标页面有所了解,比如浏览器的这个请求这个页面中间都经历了什么,数据是怎么发送和返回的。抓包的作用我把抓包分析的作用简单列一下:分析请求的headers等等,可以加载到你的爬虫中,伪装成浏览器。往往可以躲过简单的反扒策略登录状态获取,如果我们在浏览器中登录,抓包拿到cookies,加到我们的爬虫中,往往就可以绕过原创 2018-01-20 09:53:39 · 624 阅读 · 0 评论 -
tenliu的爬虫(2)-python库urllib、urllib2、requests关系
更多内容请访问我的个人博客www.tenliu.top开篇语抓取始终是一个很大的需求,小到单个页面,某个站点,大到搜索引擎(百度、谷歌)的全网抓取。 只要人能看到的东西,理论上都是爬虫可以获取的。不论静态页面还是动态页面。也不论pc端的页面还是移动端的app。 话有点大,但这就是本系列的目的。 爬虫编程,有很多语言可选,python、php、go、java···甚至是c。这里我们选择原创 2018-01-20 10:03:12 · 453 阅读 · 0 评论 -
tenliu的爬虫(3)-python的urllib库
更多内容请访问我的个人博客www.tenliu.top前言历史回顾:爬虫专题大纲爬虫-抓包分析urllib、urllib2、requests概述及三者关系爬虫-urllib学习学习第一个库:urllib我们先从urllib开始学习吧。 既然是爬虫。我们就有个抓取的目标啊。我做了一个页面,可以作为我们抓取的目标来练习。在这个页面查你可以查ip代理、ip物理地址、或原创 2018-01-20 10:07:56 · 450 阅读 · 0 评论 -
tenliu的爬虫(4)-urllib2学习
更多内容请访问我的个人博客www.tenliu.top前言历史回顾: - 爬虫专题大纲 - 爬虫-抓包分析 - urllib、urllib2、requests概述及三者关系 - 爬虫-urllib学习我们知道通过urllib可以编写简单的爬虫,但是也存在很大的问题。 python基金会不得不推出urllib的增强版urllib2。urllib2方法和类概述ur原创 2018-01-20 10:11:53 · 389 阅读 · 0 评论 -
tenliu的爬虫(5)-requests学习
更多内容请访问我的个人博客www.tenliu.top历史回顾:爬虫专题大纲爬虫-抓包分析urllib、urllib2、requests概述及三者关系爬虫-urllib学习爬虫-urllib2学习通过以上学习,爬虫算是入门了,掌握urllib、urllib2我们已经具备了可以抓取网上大部分页面的能力了。 但是我们前面也已经讲了urllib和urllib2的槽点,可以用来做原创 2018-01-20 10:15:19 · 482 阅读 · 0 评论 -
tenliu的爬虫(6)- 页面提取之正则表达式
文章目录历史回顾正则语法python正则提取文章标题提取无序列表历史回顾1.爬虫专题大纲2.urllib、urllib2、request三者关系3.urllib学习4.urllib2学习5.requests学习ps:如何用浏览器抓包分析之前个人博客网站的服务器域名等到期未续,导致部分示例中www.tenliu.com的页面失效,但不影响正常教程正则也是爬虫中页面提取的利器,如...原创 2018-11-25 16:09:01 · 241 阅读 · 0 评论 -
tenliu的爬虫(7)-页面提取之xpath
历史回顾1.爬虫专题大纲2.urllib、urllib2、request三者关系3.urllib学习4.urllib2学习5.requests学习6.页面提取之xpathps:如何用浏览器抓包分析爬虫可以分成页面下载和页面解析两个部分页面解析就是从源码中提取出我们需要的数据的过程xpath学习Xpath 用于在 XML 文档中通过元素和属性进行导航。直白点说,xpath...原创 2018-11-25 16:14:37 · 410 阅读 · 0 评论 -
tenliu的爬虫(8)-页面提取之beautifulsoup
文章目录历史回顾安装介绍加载html四种对象类型定位节点通过标签名称定位加入节点关系选择多个标签加入正则表达式(标签名)通过属性的键值选择标签加入正则表达式(属性)节点内文本stringstrings节点属性其他历史回顾1.爬虫专题大纲2.urllib、urllib2、request三者关系3.urllib学习4.urllib2学习5.requests学习6.页面提取之正则表达式...原创 2018-11-25 16:19:50 · 342 阅读 · 0 评论