自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

京东放养的爬虫

努力成为一个优秀的人,我在北京要活的精彩。

  • 博客(25)
  • 资源 (2)
  • 问答 (2)
  • 收藏
  • 关注

原创 shell中date做循环变量,以及date简单解析

需求:有时,可能希望脚本能够按照一段时间中,每天为一个参数来执行某个任务。例如开始时间为20130101,结束时间为20130301,由于日期变化不是简单的增加1,这里可以做如下处理。定义变量:start_date=20130101end_date=20130301#shFIle 为某一sh文件 其参数为日期 [ 格式 20130101 ]shFile ="/home/user/jo

2016-04-29 12:12:22 1708

原创 shell调用sftp实现自动批量上传or下载

最近项目需要自动FTP批量上传文件或下载文件。最快的完成方式就是在shell里调用相关的命点击打开链接令,并用crontab调用shell脚本实现周期性FTP批理处理。当前流行的FTP分为 ftp vs sftp,关于这二者的的样例各举一个。    注意:在编写shell脚本时需要特别注意脚本格式是windows or unix,因为换行符会引出一些莫名的错误。cd /

2016-04-29 11:47:32 7299

原创 Linux系统负荷的概念 (load average)

一、查看系统负荷如果你的电脑很慢,你或许想查看一下,它的工作量是否太大了。在Linux系统中,我们一般使用uptime命令查看(w命令和top命令也行)。(另外,它们在苹果公司的Mac电脑上也适用。)你在终端窗口键入uptime,系统会返回一行信息。 17:17 [root@y034]$ uptime 17:19:58 up 358 days, 23:23, 5 users,

2016-04-28 17:22:56 2196

原创 pdb命令行调试Python代码

1. 一个混乱的程序出于本教程的目的,让我们研究一下下面的简单程序。这个程序接收两个命令行参数,然后执行加法和减法操作。(假设用户输入的是有效值,因此代码中我们没有进行错误处理。)Python1234567891011121314import sysdef add(num1=0,

2016-04-27 15:45:49 1648

原创 python中xrange简

range    函数说明:range([start,] stop[, step]),根据start与stop指定的范围以及step设定的步长,生成一个序列。range示例: >>> range(5) [0, 1, 2, 3, 4] >>> range(1,5) [1, 2, 3, 4] >>> range(0,6,2)[0, 2, 4]xrange

2016-04-27 15:32:25 1271

原创 python Unable to find vcvarsall.bat 错误

最简单粗暴的方法就是安装vs,vs2010、vs2012、vs2013都可以。我的是vs2010,在cmd下设置一下变量就可以了。python 2.7在setup的时候查找的是VS2008编译的,如果你电脑上没有这个版本的话,比如只有:1.Visual Studio 2010,在cmd里面执行:SET VS90COMNTOOLS=%VS100COMNTOOLS%

2016-04-27 15:10:20 1058

原创 linux下压缩解压命令解析

.tar 解包:tar xvf FileName.tar打包:tar cvf FileName.tar DirName(注:tar是打包,不是压缩!)———————————————.gz解压1:gunzip FileName.gz解压2:gzip -d FileName.gz压缩:gzip FileName .tar.gz 和 .tgz解压:tar zx

2016-04-27 10:56:19 1040

原创 Python 文件夹及文件操作

我们经常会与文件和目录打交道,对于这些操作,python可以使用 os 及 shutill 模块,其中包含了很多操作文件和目录的函数。    os 可以执行简单的文件夹及文件操作,引入用  import os,可用  help(os)  或是  dir(os)  查看其用法。注意有些函数在os模块中,有的是在os.path模块中。    shutil 模块提供了大量的文件的高级

2016-04-24 17:31:00 4664

原创 shell和python实现时间转化

Linux date命令转换时间date指定格式输出$ date +"%Y-%m-%d %H:%M:%S"2014-11-21 23:59:37将日期转换为Unix时间戳当前时间转换成unix时间戳:$ date +%s1361542433转换指定日期为Unix时间戳:$ date -d "2008-01-01 00:00:00" +%s11

2016-04-24 16:16:48 1428 1

原创 wc命令----统计指定文件中的字节数、字数、行数

Linux系统中的wc(Word Count)命令的功能为统计指定文件中的字节数、字数、行数,并将统计结果显示输出。1.命令格式:wc [选项]文件...2.命令功能:统计指定文件中的字节数、字数、行数,并将统计结果显示输出。该命令统计指定文件中的字节数、字数、行数。如果没有给出文件名,则从标准输入读取。wc同时也给出所指定文件的总统计数。3.命令参数:

2016-04-24 16:14:43 2154

原创 Linux 批量修改文件名

linux 批量重名名Linux Shell 批量重命名的方法总览 1、删除所有的 .bak 后缀:rename 's/\.bak$//' *.bak 2、把 .jpe 文件后缀修改为 .jpg:rename 's/\.jpe$/\.jpg/' *.jpe 3、把所有文件的文件名改为小写:rename 'y/A-Z/a-z/' * 4、将 abcd.

2016-04-24 16:07:04 1823

原创 linux的du命令----查看使用空间

Linux du命令也是查看使用空间的,但是与df命令不同的是Linux du命令是对文件和目录磁盘使用的空间的查看,还是和df命令有一些区别的.1.命令格式:du [选项][文件]2.命令功能:显示每个文件和目录的磁盘使用空间。3.命令参数:-a或-all  显示目录中个别文件的大小。   -b或-bytes  显示目录或文件大小时,以by

2016-04-24 14:55:25 1199

原创 Python按行读文件

1. 最基本的读文件方法:# File: readline-example-1.py file = open("sample.txt") while 1: line = file.readline() if not line: break pass # do something一行一行得从文件读数据,显然比较慢;不过很省内存。在我的机

2016-04-23 20:29:30 1225

原创 Linux下rz,sz与ssh的配合使用

一般来说,linux服务器大多是通过ssh客户端来进行远程的登陆和管理的,使用ssh登陆linux主机以后,如何能够快速的和本地机器进行文件的交互呢,也就是上传和下载文件到服务器和本地;   与ssh有关的两个命令可以提供很方便的操作:   sz:将选定的文件发送(send)到本地机器   rz:运行该命令会弹出一个文件选择窗口,从本地选择文件上传到服务器(receive)rz,s

2016-04-23 09:02:25 991

原创 zookeeper技术浅析

Zookeeper是hadoop的一个子项目,虽然源自hadoop,但是我发现zookeeper脱离hadoop的范畴开发分布式框架的运用越来越多。今天我想谈谈zookeeper,本文不谈如何使用zookeeper,而是zookeeper到底有哪些实际的运用,哪些类型的应用能发挥zookeeper的优势,最后谈谈zookeeper对分布式网站架构能产生怎样的作用。  Zookeeper是针对大

2016-04-18 18:01:07 1674

转载 hive的组成组件分析

首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性:  1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计

2016-04-18 16:38:27 3965

原创 Python3 迭代器与生成器

迭代器迭代是Python最强大的功能之一,是访问集合元素的一种方式。。迭代器是一个可以记住遍历的位置的对象。迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能往前不会后退。迭代器有两个基本的方法:iter() 和 next()。字符串,列表或元组对象都可用于创建迭代器:>>> list=[1,2,3,4]>>> it = it

2016-04-15 14:42:38 1426

原创 Python3.4中filter函数,map函数和reduce函数

filter函数:filter()为已知的序列的每个元素调用给定的布尔函数,调用中,返回值为非零的元素将被添加至一个列表中[python] view plain copy >>> def f1(x):  if x > 20:  return True  else:  return False    >>> l1 =

2016-04-15 14:23:23 1728

原创 UnicodeDecodeError: 'gbk' codec can't decode byte 0xaf in position 683: illegal multibyte sequence

读文件的时候出现编码错误,有两种方法。第一种就是f = open('test.txt','r',encoding = 'utf-8')content = f.readline()打开文件的时候就指定编码的类型,就可以避免出现类似的错误。第二种就是在读出文件之后利用encode函数再将其转换为utf-8的模式就可以了s.decode('gbk', ‘igno

2016-04-15 10:50:48 26919 2

原创 Sublime text 3最新版破解方法

Sublime Text3注册码(可用)作为强大而小巧,性感且快捷的SublimeText,怎么能够允许不时弹个框提醒你购买,并且顶部有未注册这样破坏美感的存在呢?OK,点开Help,填入注册码即可消除此问题。Sublime text 3 3103 注册码 ! (Update:2016-03-08)—– BEGIN LICENSE —–Michael BarnesSingl

2016-04-15 10:02:39 1292

原创 Flume结构简要分析

一、Flume介绍Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。设计目标:(1) 可靠性当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to-end(收到数据agent首先

2016-04-14 19:12:13 7938

原创 Kafka深度解析

本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/2015/01/02/Kafka深度解析背景介绍Kafka简介  Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下:以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价的商用机器上也能做

2016-04-14 14:40:33 3450

原创 hive+python数据分析入门

为什么要使用hive+python来分析数据举个例子,当年没有数据库的时候, 人们编程来操作文件系统, 这相当于 我们编写mapreduce来分析数据后来有了数据库, 再没人操作文件系统了(除非有其它需求), 而是直接使用sql和一些语言(php, java, python)来操作数据. 这就相当于 hive + python了hive + python能解决大

2016-04-13 17:14:21 7195

原创 Hive安装及使用攻略

前言Hive是Hadoop一个程序接口,Hive让数据分析人员快速上手,Hive使用了类SQL的语法,Hive让JAVA的世界变得简单而轻巧,Hive让Hadoop普及到了程序员以外的人。从Hive开始,让分析师们也能玩转大数据。目录Hive的安装Hive的基本使用:CRUDHive交互式模式数据导入数据导出Hive查询HiveQLHiv

2016-04-12 17:55:31 1489

原创 Hive学习路线图

前言Hive是Hadoop家族中一款数据仓库产品,Hive最大的特点就是提供了类SQL的语法,封装了底层的MapReduce过程,让有SQL基础的业务人员,也可以直接利用Hadoop进行大数据的操作。就是这一个点,解决了原数据分析人员对于大数据分析的瓶颈。让我们把Hive的环境构建起来,帮助非开发人员也能更好地了解大数据。目录Hive介绍Hive学习路线图

2016-04-12 16:18:55 1307

数电报告莫版

数电报告莫版

2012-07-12

数电课件科技

数电课件

2012-07-12

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除