排序:
默认
按更新时间
按访问量

[爬虫架构]使用scrapy-redis+multiprocessing构建超级爬虫

前言:       这段时间研究了一下scrapy-redis组件,有些个人实践经历和想法,现将其变成文字呈现出来。        前方高能预警:                1、阅读本文章的知识内需为:熟练使用scrapy,了解scrapy的调度器、去重器工作原理;了解redis的基本操作  ...

2018-03-23 19:48:53

阅读数:109

评论数:0

[Scrapy使用技巧] 如何在scrapy中捕获并处理各种异常

前言    使用scrapy进行大型爬取任务的时候(爬取耗时以天为单位),无论主机网速多好,爬完之后总会发现scrapy日志中“item_scrapd_count”不等于预先的种子数量,总有一部分种子爬取失败,失败的类型可能有如下图两种(下图为scrapy爬取结束完成时的日志):scrapy中常见...

2018-06-15 16:29:50

阅读数:85

评论数:0

[开源库学习] Numpy日记 Section.2

前言   最近入门Data anaysis,将numpy学习日记分享出来,也当做个记录。 【Numpy官网学习地址】:Click Here   备注:        我尽可能的将官网快速教程中的case都贴出来了,但越往下发现这个库是真的庞大,教程也是由浅及深,后面会涉及到向量、线性代数等高数概念...

2018-06-13 17:54:46

阅读数:17

评论数:0

[开源库学习] Numpy日记 Section.1

前言   最近入门Data anaysis,将numpy学习日记分享出来,也当做个记录。 【Numpy官网学习地址】:Click Here   备注:        我尽可能的将官网快速教程中的case都贴出来了,但越往下发现这个库是真的庞大,教程也是由浅及深,后面会涉及到向量、线性代数等高数概念...

2018-06-13 17:48:00

阅读数:12

评论数:0

[巩固基础]总结Python基础知识的14张思维导图

闲聊    有时候总感觉自己的代码太low,却又没有什么办法去改善,就很气!    不知道作为看官的你是否由此感受呢,不过最近我找到办法解决这个问题了,那就是巩固基础--系统的学习python初级、高级语法,一段时间后,我明显感觉到自己的代码变得更简洁、优美,coding的心情也变的舒畅~    ...

2018-06-06 14:42:26

阅读数:16

评论数:0

[Python小记] 装饰器怎么用 ?

装饰器的含义和作用:        装饰器本质上是一个Python函数,它可以让其他函数在不需要做任何代码变动的前提下增加额外功能,装饰器的返回值也是一个函数对象。    它经常用于有切面需求的场景,比如:插入日志、性能测试、事务处理、缓存、权限校验等场景。装饰器是解决这类问题的绝佳设计,有了装饰...

2018-05-27 17:10:44

阅读数:26

评论数:0

[Python小记] 通俗的理解闭包 闭包能帮我们做什么?

热身:首先给出闭包函数的必要条件:闭包函数嵌套存在于函数体内闭包函数必须引用外部变量(一般不能是全局变量),不一定要return闭包函数必须作为对象被逐级return,直至作为主函数(最外层函数)的返回值几个典型的闭包例子:# ENV>>&amp...

2018-05-27 00:20:41

阅读数:50

评论数:0

[后端开发]支付宝支付接口调试 (Python v3.6)

写在前面:    讲真,一开始接到这个任务我是拒绝的。因为支付宝官方没有提供Python的SDK环境,只有JAVA/PHP/.NET三种语言的SDK,这意味着签名&验签、HTTP接口请求等操作全都要自己手动实现,就算支付宝提供了签名、验签的算法说明,但仅靠它的文字描述就写出...

2018-05-25 14:48:33

阅读数:236

评论数:0

[爬虫小记] 优秀的requests模块

前言    除了当初学习爬虫的时候用过urllib、urllib2,后来再没用过了。都是使用的requests,本文将记录一直以来个人使用requests的经验总结。正文import requests r = requests.get('http://www.baidu.com') ...

2018-05-18 11:57:44

阅读数:84

评论数:0

[爬虫面试] 总结一些爬虫工程师遇到的面试题(真实)

前言:    说几句,坐标CQ,爬虫工程师的需求在这个二线城市真的是太少了。正文:        NO.1 :列表生成式和生成器的区别 ?        NO.2 :如何不用任何循环快速筛掉列表中的奇数元素 ?        NO.3 :map和reduce的用法 ?        这几个问题的答...

2018-05-04 13:00:19

阅读数:36

评论数:2

[爬虫架构] 如何设计一个分布式爬虫架构

前言:    在大型爬虫项目中,使用分布式架构是提高爬取效率的唯一途径。设计一个合理的分布式架构对项目、对个人都有很大的好处,接下来说说分布式架构应该具有的特性:分布式。这是最基本也是最核心的特性,分布式将允许我们通过横向扩展主机资源来提高爬取效率。易扩展、易部署。当我们想要增加要爬取的网站时,只...

2018-05-01 23:05:34

阅读数:59

评论数:0

[爬虫架构] 如何在分布式爬虫架构中动态维护一个代理IP池(付费代理)

前言:    当分布式爬虫使用代理IP技术时,通过直接在爬虫程序中添加平台api接口的方式已经不能满足我们了,因为分布式的爬虫架构每秒的代理IP-URL的请求数会远远大于平台限制的请求频率,当然,对于没有限制的套餐此处不考虑,但为了爬虫能够稳定的获取代理IP,我们仍需要维护一个本地的代理IP池。准...

2018-04-17 13:21:12

阅读数:69

评论数:0

[Python模块]Windows环境安装PyV8并执行js语句

安装这个玩意儿真挺坑的,pip直接安装失败,windows的py库压根搜不到。。搜索良多解决办法终于找到了,在这里贴出来,主要是把这个库下载下来再安装,但它的下载地址HERE位于外面的世界(你懂得),可能在下载这里会让人很烦躁,我把它的windows版本和linux版本都下载并上传到我的百度网盘了...

2018-04-15 00:46:47

阅读数:361

评论数:0

[爬虫技巧] Scrapy中定制写入CSV文件的Pipeline

前言:        在使用Scrapy写项目时,难免有时会需要将数据写入csv文件中,自带的FEED写法如下:        settings.py   (系统:Ubuntu 14)FEED_URI = 'file:///home/eli/Desktop/qtw.csv' FEED_FORMAT...

2018-03-17 12:21:46

阅读数:619

评论数:0

[爬虫项目]scrapy使用ImagePipeline下载图片And图片分类存储(解决路径问题)

项目介绍:       使用Scrapy下载千图网首页图片的高清样张,系统为Ubuntu 14.04       千图网反爬:            1、访问频率限制,延时需设置适当,频率上限后会要求输入4位验证码(3-6次),仍持续该频率将被封号4-6小时(测试数据)            2、...

2018-03-16 22:55:11

阅读数:393

评论数:0

[已解决]ubuntu导入scrapy报错: No module named twisted.persisted.styles

场景:        ubuntu安装scrapy后,在python2.7解释器上导入scrapy时报错:        No module named twisted.persisted.styles解决:        sudo pip install twisted --upgrade

2018-03-16 11:36:47

阅读数:511

评论数:2

[已解决]笔记本安装ubuntu后不能识别无线网卡

症状:    刚在windows7电脑上装完ubuntu(做双系统)。进入ubuntu通过ifconfig命令看不到wlan网卡,只有以太网卡和loopback口解决:    1、检查无线网卡类型:lspci  |grep  Network  ,返回Network controller:Qualc...

2018-03-13 20:26:42

阅读数:50

评论数:0

【Python模拟登录】py2模拟登录GitHub

·思路描述先通过浏览器使用账号正常登陆网站,分析提交的表单可以用火狐或者其他抓包工具,这里推荐火狐,它可以抓取到重定向前的请求,而重定向前的http请求就包含了模拟登录需要的各项参数(如账号、密码、其他字符)。如下图,输入账号密码,右键打开“查看元素”,点击“sign in”登录登陆之后,观察控制...

2018-01-17 17:33:23

阅读数:112

评论数:0

【python】 os.path模块介绍

os.path.abspath(path) #返回绝对路径 os.path.basename(path) #返回文件名 os.path.commonprefix(list) #返回list(多个路径)中,所有path共有的最长的路径。 os.path.dirname(path) #返回文件路...

2017-12-22 16:38:05

阅读数:66

评论数:0

【Github】github是什么?github入门

Github解释:gitHub是一个面向开源及私有软件项目的托管平台,因为只支持git 作为唯一的版本库格式进行托管,故名gitHub。注:本文章仅帮助读者入门github正文: 1、仓库 repository  说明:一个仓库一般用于存放一个项目,可以包含文件和各种格式的文件。一般也会有一个...

2017-12-20 18:51:27

阅读数:297

评论数:3

提示
确定要删除当前文章?
取消 删除
关闭
关闭