自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Python爬虫实战:百度贴吧—妈妈吧

上次,我们用requests 和 xpath爬取了极客学院的课程,感觉还是不过瘾,今天我们再来爬一下百度贴吧妈妈吧里面的话题,看看妈妈们都喜欢讨论什么吧!爬取前我们先看一下我们的目标:1.抓取百度贴吧妈妈吧的话题2.抓取每一个话题的发布人、发布时间、发布标题、发布内容和回贴数目1.确定URL1.确定URL1.确

2016-04-29 11:53:32 1847

原创 Python爬虫实战:极客学院

今天我们来爬取一下极客学院的课程,这次我们用requests和xpath,小伙伴们看好了,这真是一对神奇组合,棒棒哒!爬取前我们先看一下我们的目标:1.抓取极客学院的课程2.抓取每一门课程的课程名称、简介、时长、等级和学习人数1.确定URL     首先我们确定好页面的URL,极客学院职业课程的网址是:http://www.jikexueyuan.c

2016-04-28 15:19:59 3804 1

转载 python爬虫入门笔记:XPath与lxml库

lxml库是一个比较流行的解析库,使用的是XPath语法,效率比较高的解析方法。主要学习资料是极客学院的定向爬虫、w3school​。XPath简介:XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。​简单说,xpath就是选择XML文件中节点的方法。所谓节点(node),就是XML文件的最小构

2016-04-28 10:44:40 6484

转载 python爬虫入门笔记:Requests库

Python Requests快速入门快速上手迫不及待了吗?本页内容为如何入门Requests提供了很好的指引。其假设你已经安装了Requests。如果还没有, 去 安装 一节看看吧。首先,确认一下:Requests 已安装Requests是 最新的让我们从一些简单的示例开始吧。发送请求使用Requests发送网络请求非常简单。

2016-04-27 16:25:01 1221

原创 Python爬虫实战:糗事百科

前面我们已经说了那么多基础知识了,下面我们做个实战项目来挑战一下吧。这次就用前面学的urllib和正则表达式来做,Python爬虫爬取糗事百科的小段子。爬取前我们先看一下我们的目标:1.抓取糗事百科热门段子2.过滤带有图片的段子3.段子的发布人,段子内容,好笑数,评论数

2016-04-26 16:24:17 1468

转载 Python爬虫入门笔记:正则表达式

前面我们用urllib2下载了网页,还是一段段html代码,如何在一堆代码中提取出我们想要的信息,就需要解析器,前面提过正则表达式的,这个比较繁琐但是很强大的工具,内容比较多啦,有老师总结的比较全面,我就直接引用了。。。————————————————————————————1、崔老师的《Python爬虫入门七之正则表达式》:http://cuiqingcai.com/977.ht

2016-04-26 16:04:19 705

原创 Python爬虫入门笔记:urllib库的使用2

上文我们说了urllib库的简单使用,简单总结之:urllib2用一个Request对象来映射你提出的HTTP请求。你用你要请求的地址创建一个Request对象,通过调用urlopen并传入Request对象,将返回一个相关请求response对象,这个应答你可以在Response中调用.read()。其实,在HTTP请求时​除了上文提到的可能要加headers验证,还需要传入表单数据,打

2016-04-26 11:41:29 687

原创 Python爬虫入门笔记:urllib库的使用

上次我们说到网页下载是爬虫的重要部分,并提到几种实用的下载器模块,今天我们先说urlib库的使用,这个是Python官方基础模块,具体相关细节知识,大家可以自行去了解,这里我们只说主要的使用方法:1、直接访问import urllib2url = 'http://www.baidu.com'#直接请求response = urllib2.urlopen(url)#获取状态码,如果

2016-04-22 17:31:39 837

原创 Python爬虫入门笔记:一个简单的爬虫架构

上次我们从对爬虫进行简单的介绍,今天我们引入一个简单爬虫的技术架构,解释爬虫技术架构中的几个模块,对爬虫先有一个整体的认知,方便对爬虫的理解和后面的编程。     简单的爬虫架构:URL管理、网页下载、网页解析、输出部分,如下图:      1、URL管理器:防止重复抓取、防止循环抓取;URL是爬虫爬取的入口和桥梁,除了入口URL外,剩下的URL我们需要在网页上

2016-04-22 15:19:16 4227

原创 Python爬虫入门笔记:爬虫简介

爬虫技术是用来从互联网上自动获取需要的数据。今天我们对爬虫进行简单的介绍:​        1、什么是爬虫?        爬虫是一段自动抓取互联网信息的程序,大家可以理解为在互联网这张网上爬来爬去的蜘蛛,如果它遇到资源,那么它就会抓取下来。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据,爬虫就是通过这些通道爬取数据。

2016-04-22 10:09:18 3235

原创 Python语言集成开发环境搭建

正所谓工欲善其事,必先利其器。今天我们来搭建Python语言集成开发环境:1、安装Python2.7.11Python下载地址:https://www.python.org/ ,点击Downloads选择Python2.7.11,这里有必要说一下为什么不选Python3.5,3.5版本虽然有很多新的特性,运行也更快,但因为架构思路不同,这个并不是升级迭代来的,2.7版本有很多实用的库在3.

2016-04-21 22:30:23 3618

原创 Python爬虫入门笔记(序)

近期迷恋上了Python,不外乎“人生短暂,我用Python"。Python简洁,优雅,易懂。大数据分析的前期自然也是少不了数据收集的,做一些爬虫爬取数据是少不了的。主要学习资料:两网站慕课网和极客学院,两博客园崔庆才和廖雪峰。编程工具从Notepad 到Eclipse for Python再到Pycharm,衷心推荐Pycharm,功能强大,安装简单!      学习Python爬虫

2016-04-21 08:55:17 1691

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除