Adision666-CSDN博客

原创 Python爬虫入门：Cookie的使用

大家好哈，上一节我们研究了一下爬虫的异常处理问题，那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢？ Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie，然后再抓取

2017-11-01 10:37:24 386

原创 Python爬虫入门：URLError异常处理

大家好，本节在这里主要说的是URLError还有HTTPError，以及对它们的一些处理。 1.URLError 首先解释下URLError可能产生的原因： · 网络无连接，即本机无法上网 · 连接不到特定的服务器 · 服务器不存在在代码中，我们需要用try-except语句来包围并捕获相应的异常。下面是一个例子，先感受下它的风骚 Python 1 2 3

2017-11-01 10:36:38 589

原创 Python爬虫入门：Urllib库的高级使用

1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers 的属性。首先，打开我们的浏览器，调试浏览器F12，我用的是Chrome，打开网络监听，示意如下，比如知乎，点登录之后，我们会发现登陆之后界面都变化了，出现一个新的界面，实质上这个页面包含了许许多多的内容，这些内容也不是一次

2017-10-31 11:37:57 311

原创 Python爬虫入门：Urllib库的基本使用

1.分分钟扒一个网页下来怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的，下面我们就写个例子来扒一个网页下来。 Python

2017-10-31 11:35:37 817

原创 Python爬虫入门：综述

大家好哈，最近博主在学习Python，学习期间也遇到一些问题，获得了一些经验，在此将自己的学习系统地整理下来，如果大家有兴趣学习爬虫的话，可以将这些文章作为参考，也欢迎大家一共分享学习经验。 Python版本:2.7，Python 3请另寻其他博文。首先爬虫是什么？网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网

2017-10-30 17:15:11 609

原创 Python爬虫入门：爬虫基础了解

有粉丝私信我想让我出更基础一些的，我就把之前平台的copy下来了，可以粗略看一下，之后都会慢慢出。 1.什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到

2017-10-30 11:46:08 286

原创爬虫入门讲解：精华篇

Python学习网络爬虫主要分3个大的版块：抓取，分析，存储另外，比较常用的爬虫框架Scrapy，这里最后也详细介绍一下。简单来说这段过程发生了以下四个步骤：查找域名对应的IP地址。向IP对应的服务器发送请求。服务器响应请求，发回网页内容。浏览器解析网页内容。网络爬虫要做的，简单来说，就是实现浏览器的功能。通过指定url，直接返回给用户所需要的数据，而不需要一步步人工去

2017-10-28 17:01:40 440

原创 Python爬虫小实践：爬取任意CSDN博客所有文章的文字内容（或可改写为保存其他的元素），间接增加博客访问量

Python并不是我的主业，当初学Python主要是为了学爬虫，以为自己觉得能够从网上爬东西是一件非常神奇又是一件非常有用的事情，因为我们可以获取一些方面的数据或者其他的东西，反正各有用处。这两天闲着没事，主要是让脑子放松一下就写着爬虫来玩，上一篇初略的使用BeautifulSoup去爬某个CSDN博客的基本统计信息（http://blog.csdn.net/hw140701/article/

2017-10-28 09:44:35 1158

原创爬虫入门讲解：基础篇

关于爬虫内容的分享，我会分成六个部分来分享，分别是： 1. 我们的目的是什么 2. 内容从何而来 3. 了解网络请求 4. 一些常见的限制方式 5. 尝试解决问题的思路 6. 效率问题的取舍一、我们的目的是什么一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值，内容一般分为两部分，非结构化的文本，或结构化的文本。 1. 关于非结构化的数据 1.1 H

2017-10-26 11:39:33 391

原创 webmagic学习-使用注解编写爬虫

官方文档：http://webmagic.io/docs/zh/posts/ch5-annotation/README.html WebMagic支持使用独有的注解风格编写一个爬虫，引入webmagic-extension包即可使用此功能。在注解模式下，使用一个简单的Model对象加上注解，可以用极少的代码量就完成一个爬虫的编写。注解模式的开发方式是这样的： 1. 首先定义你需要抽取的

2017-10-25 10:41:39 1863

原创 Python爬虫小实践：寻找失踪人口，爬取失踪儿童信息并写成csv文件，方便存入数据库

前两天有人私信我，让我爬这个网站，http://bbs.baobeihuijia.com/forum-191-1.html上的失踪儿童信息，准备根据失踪儿童的失踪时的地理位置来更好的寻找失踪儿童，这种事情本就应该义不容辞,如果对网站服务器造成负荷，还请谅解。这次依然是用第三方爬虫包BeautifulSoup，还有Selenium+Chrome，Selenium+PhantomJS来爬取信

2017-10-24 11:24:58 3459 1

Adision666的博客