小白学python爬虫
小洋人最happy
梦想,源自坚持
展开
-
03—小白学Python爬虫之urllib的基本和进阶使用及Get、Post示例
urllib库官方文档地址:https://docs.python.org/3/library/urllib.htmlurllib简介概述urllib是python内置的HTTP请求库。版本python2.X —> urllib和urllib2python3.X —> urllib变化在Pytho2.x中使用import ur...原创 2018-03-06 20:12:33 · 1785 阅读 · 0 评论 -
09—小白学Python爬虫之Scrapy快速入门与实战
从本篇起,将学习一下Scrapy爬虫框架,以及如何通过该框架实现定向爬虫。Scrapy是一个非常优秀的框架,操作简单,扩展方便,是比较流行的爬虫解决方案。初识Scrapy是使用Python编写的Crawler Framework,简单轻巧,其使用Twisted异步库来处理网络通信,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。架构及组件首先看一下Scr...原创 2018-04-10 11:04:35 · 480 阅读 · 0 评论 -
07—小白学Python爬虫之Requests简介及基本使用
前面几篇文章的案例介绍,都是通过urllib完成的,不知各位发现没,使用起来比较繁琐,1. 创建Request对象,2. 调用urlopen方法,3. 拿到返回后,还需要进行read()并进行解码操作,4. 如果是https请求的话,还需要创建context对象等等,巴拉巴拉,使用还是非常不便的。 接下来就介绍一下Requests库及使用,通过这个库,可以大大提升效率,相信等看完了,会...原创 2018-03-28 09:58:36 · 384 阅读 · 0 评论 -
06—小白学Python爬虫之BeautifulSoup入门与应用(以糗百为例)
之前介绍了通过正则和xpath来解析HTML文本,本篇将会介绍一种全新的方式BeautifulSoup来解析HTML,相对前两种使用更简单,那么,在介绍之前,先对这三种方式做一个简单的对比。 抓取方式 速度 使用难度 安装难度 正则 最快 困难 无(内置) xpath 快 简单 一般 BeautifulSoup ...原创 2018-03-27 11:13:48 · 478 阅读 · 0 评论 -
05—小白学Python爬虫之XPath XML lxml简介及案例
上一篇文章,介绍了使用正则来处理HTML文档,功能和效率很强大,但是写起来有点繁琐,那么有没有其他方法呢?答案是肯定的,那么这一篇,就简单来介绍一下XPath解析以及示例。 XPath是基于XML文档进行信息查找的,那么介绍XPath之前,先来认识一下XML吧。XML概念XML 指可扩展标记语言(EXtensible Markup Language)XML...原创 2018-03-14 15:46:02 · 678 阅读 · 0 评论 -
Selenium+PhantomJS使用时报错原因及解决方案
问题今天在使用Selenuim+PhantomJS动态抓取网页时,出现如下报错信息:UserWarning: Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox instead warnings.warn('Selenium suppo...原创 2018-03-29 21:07:01 · 48812 阅读 · 13 评论 -
Python3 error: initial_value must be str or None
在爬取中出现异常,信息如下:Traceback (most recent call last): File "***.py", line 10, in <module> result = Image.open(StringIO(r.content))TypeError: initial_value must be str or None, not bytes问题原...原创 2018-03-13 10:19:33 · 8630 阅读 · 0 评论 -
02—小白学Python爬虫之HTTP协议简介
网络抓取,就是把URL地址中的网络资源从网络流中读取出来,保存到本地。python中有很多库可以实现抓取,下面先从最基本的urllib讲起(以python3为例,python2中为urllib2)。HTTP协议简介概念HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写。协议是指计算机通信网络中两台计算机之间进行通信所必须共同遵...原创 2018-03-02 15:50:16 · 241 阅读 · 0 评论 -
01--小白学Python爬虫之爬虫概念、分类、原理及连载规划
前言 小到出门扯淡,大到国家政策,无一例外,比较常见的三个字”大数据”,处处表示着已经进入大数据时代,那在大数据时代,最重要的是什么呢?毫无疑问,数据!而数据又是怎么来的呢?下面简单列一下:企业生产的用户数据 比如像BAT等公司,拥有庞大的用户群体,用户的任何行为都会成为他们数据源的一部分数据平台购买数据 比如从国家数据中心 数据市场等购买政府 机构公开数据 比如统计局 ...原创 2018-03-01 19:08:09 · 992 阅读 · 0 评论 -
网页压缩--gzip和deflate的区别
我们在配置网站GZip压缩的时候,会发现有两个模块可以设置的,一个是GZip模块的参数配置,另一个是Deflate模块的参数配置,他们的设置方法是一样的。刚开始时我不太明白,这两地方有什么不同?网站开启GZip压缩要设置GZip模块还是Deflate模块?今天通过参考了相关的资料,明白了他们之间的几点区别。gzip和deflateHTTP定义了一种机制,一个Web客户机和Web...转载 2018-03-15 14:52:22 · 2223 阅读 · 0 评论 -
08—小白学Python爬虫之Requests高级特性
上篇文章介绍了Requests及基本使用,在掌握了基础后,那么本篇就来看一下Requests的一些高级特性。高级使用会话对象会话对象让你能够跨请求保持某些参数。它也会在同一个 Session 实例发出的所有请求之间保持 cookie, 期间使用 urllib3 的 connection pooling 功能。所以如果你向同一主机发送多个请求,底层的 TCP 连接将会被重...原创 2018-03-29 08:35:44 · 462 阅读 · 0 评论