python
sqc157400661
这个作者很懒,什么都没留下…
展开
-
Python爬虫入门一之综述
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验。Python版本:2.7,Python 3请另寻其他博文。首先爬虫是什么?网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,原创 2017-07-04 17:05:32 · 453 阅读 · 2 评论 -
彻底理解Python中的yield
阅读别人的python源码时碰到了这个yield这个关键字,各种搜索终于搞懂了,在此做一下总结:通常的for...in...循环中,in后面是一个数组,这个数组就是一个可迭代对象,类似的还有链表,字符串,文件。它可以是mylist = [1, 2, 3],也可以是mylist = [x*x for x in range(3)]。它的缺陷是所有数据都在内存中,如果有海量数据的话将会非常耗转载 2017-07-18 11:53:25 · 2602 阅读 · 0 评论 -
python使用多线程实例讲解
说起多线程,你需要知道多进程和多线程的区别,了解多线程的概念,至于这两点,我不打算在本片文章中详述了,不错,因为我懒得整理。。。不了解的请先问度娘1、普通的单线程:打个比方,我想做听音乐和敲代码两件事儿,那么如果大脑简单的话一定要先排一下顺序# coding=utf-8from time import ctime,sleepdef music(): for原创 2017-07-05 17:14:17 · 11558 阅读 · 2 评论 -
python爬虫实战 - 糗事百科数据的爬取
糗事百科抓取规则相对来说比较简单,因为抓取它的数据是不需要进行cookie的配置的,所以咱们先拿它练练手! 注意由于糗事百科网站的更新,那么抓取规则那也是要跟着调整的,下面代码如果运行不成功的话说明糗事百科网页爬取规则更改了,那么咱们的小偷程序那也是需要跟着升级哦,当然可能需要你跟着具体场景自行进行升级。该程序运行时间为2017.7.5。下面咱们就开始吧1、实现的目标(1)抓取糗事原创 2017-07-05 15:42:18 · 566 阅读 · 0 评论 -
Python爬虫入门七之正则表达式
在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常原创 2017-07-04 17:14:05 · 473 阅读 · 3 评论 -
Python爬虫入门六之Cookie的使用
大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢?Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie原创 2017-07-04 17:13:03 · 324 阅读 · 0 评论 -
Python爬虫入门五之URLError异常处理
大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理。1.URLError首先解释下URLError可能产生的原因:网络无连接,即本机无法上网连接不到特定的服务器服务器不存在在代码中,我们需要用try-except语句来包围并捕获相应的异常。下面是一个例子,先感受下它的风骚1234567import urlli原创 2017-07-04 17:11:42 · 569 阅读 · 0 评论 -
Python爬虫入门四之Urllib库的高级用法
1.设置Headers有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现登陆之后界面都变化了,出现一个新的界面,实质上这个页面包含了许许多多的内容,这些内容也不原创 2017-07-04 17:10:27 · 401 阅读 · 0 评论 -
Python爬虫入门三之Urllib库的基本使用
那么接下来,小伙伴们就一起和我真正迈向我们的爬虫之路吧。1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的,下面原创 2017-07-04 17:08:59 · 401 阅读 · 0 评论 -
Python爬虫入门二之爬虫基础了解
1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。原创 2017-07-04 17:07:16 · 349 阅读 · 0 评论 -
scrapy 详细实例-爬取百度贴吧数据并保存到文件和和数据库中
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。使用框架进行数据的爬取那,可以省去好多力气,如不需要自己去下载页面、数据处理我们也不用自己去写。我们只需要关注数据的爬取规则就行,scrapy在python数据爬取框架中数据比较流行的,那么今天就用scrapy进行幕课网课程数据的爬取原创 2017-07-18 11:33:01 · 6939 阅读 · 1 评论