2016年05月_djd已经存在

原创 hadoop 清空回收站

Hadoop回收站trash，默认是关闭的。建议最好还是把它提前开开，否则误操作的时候，就。。。了1.修改conf/core-site.xml,增加property> name>fs.trash.intervalname> value>1440value> description>Number of minutes between trash checkpoints.

2016-05-27 11:44:58 2140

原创 Linux 下查看本机 IP 地址

在 linux 下可以通过两个命令来查看本机的 IP 地址：支持包括 Linux 在内的所有 Unix 系统。Shell代码 $ /sbin/ifconfig 仅就 Linux 而言，也可以使用 ip 命令查看 Shell代码 # ip addr show

2016-05-27 10:45:15 4221

原创 shell统计文件里面特定字符串出现次数

下面三个方法都可以完成这个需求 1.第一种方法：使用grep命令进行统计grep -o '字符串' file | wc -l 2.第二种方法：使用awk命令进行统计awk -v RS="@#$j" '{print gsub(/字符串/,"&")}'file 3.第三种方法：另一种使用awk命令进行统计的方法awk '{s+=gsub(/字符串/,"&")}END

2016-05-26 19:44:25 12004

原创 python中包含UTF-8编码中文的列表或字典的输出

在python 下面一个包含中文字符串的列表（list）或字典，直接使用print会出现以下的结果：dict = {"asdf": "我们的python学习"}print dict{'asdf': '\xe6\x88\x91\xe4\xbb\xac\xe7\x9a\x84python\xe5\xad\xa6\xe4\xb9\xa0'}在输出处理好的数据结构的时候很不方便，需要使

2016-05-26 09:33:32 12792

原创 Hive几种参数配置方法

Hive提供三种可以改变环境变量的方法，分别是：（1）、修改${HIVE_HOME}/conf/hive-site.xml配置文件；（2）、命令行参数；（3）、在已经进入cli时进行参数声明。下面分别来介绍这几种设定。　　方法一：　　在Hive中，所有的默认配置都在${HIVE_HOME}/conf/hive-default.xml文件中，如果需要对默认的配置进行修改，可以创建一个hi

2016-05-25 18:00:50 1064

原创 hadoop2.5集群迁移namenode

我的hadoop集群是2.5.0的集群。 hadoop是机器不相关的，迁移namenode的话，可以按以下步骤迁移。 1、关闭所有hadoop集群、zookeeper、hive、hbase集群，设置hosts和ssh互信，调整服务器时间 2、拷贝hadoop的目录和相应的数据目录到新namenode主机，要保持新旧主机的目录一致。 3、修改$HADOOP_HOME/

2016-05-25 17:50:45 1249

原创 hadoop版本和位数的查看方法

目前针对apache hadoop更新的版本较多，由此而产生了两个方面的问题：　　1、如何查看运行的集群当中的hadoop的版本的问题。　　2、如何查看运行集群当中的hadoop的位数下面详细的介绍一下 1、查看版本信息通过在集群上执行：hadoopversion 命令可以查看对应的hadoop的版本。 2、查看hadoop集群的位数

2016-05-25 17:49:54 4507

原创 Redis常用命令

Redis常用命令集1）连接操作命令quit：关闭连接（connection）auth：简单密码认证help cmd：查看cmd帮助，例如：help quit2）持久化save：将数据同步保存到磁盘bgsave：将数据异步保存到磁盘lastsave：返回上次成功将数据保存到磁盘的Unix时戳shundown：将数据同步保存到磁盘，然后关闭服务3）远

2016-05-24 12:37:16 1049

原创删除文件中的 ^M 字符

有时候，我们在 Linux 中打开曾在 Win 中编辑过的文件时，会在行尾看到 ^M 字符。虽然，这并不影响什么，但心里面还是有点不痛快。如果想要删除这些 ^M 字符，可以使用 Vim 来轻松搞定它。sed -i 's/^M//g' filename#注意：^M的输入方式是 Ctrl + v ，然后Ctrl + M

2016-05-24 12:36:10 1016

原创 shell指令expr使用指南

在Linux shell命令中expr虽然不是很起眼，但是它的作用是非常大的！到目前为止，我个人看来最大的作用就是两个——四则运算和字符串的操作。先说四则运算，在Shell中四则运算不能简简单单的加减乘除，应该要写如下的格式： $val1=`$val2 - 1` 其中“=”后面用“`”包住表达式，这个符号在Shell中十分有用，是Tab键上面“~”的原来形式。可以用来将很多命

2016-05-24 10:29:24 1396

原创利用map代替for实现并行化

Python 在程序并行化方面多少有些声名狼藉。撇开技术上的问题，例如线程的实现和 GIL1，我觉得错误的教学指导才是主要问题。常见的经典 Python 多线程、多进程教程多显得偏“重”。而且往往隔靴搔痒，没有深入探讨日常工作中最有用的内容。传统的例子简单搜索下“Python 多线程教程”，不难发现几乎所有的教程都给出涉及类和队列的例子：#Example.py''

2016-05-23 18:14:06 2062

原创 shell字符串的截取

shell字符串的截取的问题：一、Linux shell 截取字符变量的前8位，有方法如下：1.expr substr “$a” 1 82.echo $a|awk ‘{print substr(,1,8)}’3.echo $a|cut -c1-84.echo $5.expr $a : ‘$.\$.*’6.echo $a|dd bs=1 count=8 2>/dev/

2016-05-20 09:47:13 1095

原创 Azkaban——使用指南

登录https://localhost:8443注意是https，采用的是jetty ssl链接。输入账号密码azkaban/azkanban（如果你之前没有更改的话）图1 首页首页有四个菜单projects：最重要的部分，创建一个工程，所有fl

2016-05-17 18:37:42 10259 3

原创 Azkaban——安装指南

最近项目迁移到新集群，试试同事推荐的开源任务调度程序－azkaban（阿兹卡班），没看错，就是哈利波特里的阿兹卡班，azikaban主要用来解决hadoop依赖任务的执行，但是它本身支持linux和java程序，因此适合做小项目的任务调度管理程序。Azkaban官网它有三个重要组件：关系数据库（目前仅支持mysql）web管理服务器－AzkabanWebServer执行服务

2016-05-17 18:02:04 3709 1

原创 crontab 定时任务

通过crontab 命令，我们可以在固定的间隔时间执行指定的系统指令或 shell script脚本。时间间隔的单位可以是分钟、小时、日、月、周及以上的任意组合。这个命令非常适合周期性的日志分析或数据备份等工作。19.1. 命令格式crontab [-u user] [ -e | -l | -r ]19.2. 命令参数-u user：用来设定某个用户的cro

2016-05-17 16:20:12 1237

原创机器学习基础

何为机器学习：简单地说，机器学习就是把无序的数据转换成有用的信息，利用计算机来彰显数据背后的真实含义；机器学习横跨计算机科学、工程技术和统计学多个学科，需要多学科的专业知识；机器学习对于任何需要解释并操作数据的领域都有所裨益。关键术语：特征（or 属性）：如鸟的体重、翼展、脚蹼等特征。目标变量：机器学习算法的预测结果。在分类算法中目标变量的类型通常是标称型（离散型数据，变量

2016-05-15 10:26:53 2491

原创基于Flume的美团日志收集系统(二)改进和优化

来自：美团技术博客http://tech.meituan.com/mt-log-system-optimization.html在《基于Flume的美团日志收集系统(一)架构和设计》中，我们详述了基于Flume的美团日志收集系统的架构设计，以及为什么做这样的设计。在本节中，我们将会讲述在实际部署和使用过程中遇到的问题，对Flume的功能改进和对系统做的优化。1 Fl

2016-05-13 14:15:33 2152

原创基于Flume的美团日志收集系统(一)架构和设计

来自：美团技术博客http://tech.meituan.com/mt-log-system-arch.html美团的日志收集系统负责美团的所有业务日志的收集，并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流。美团的日志收集系统基于Flume设计和搭建而成。《基于Flume的美团日志收集系统》将分两部分给读者呈现美团日志收集系统的架构设计和实战经验。

2016-05-13 13:27:37 11031

原创 scp 跨机远程拷贝

scp是secure copy的简写，用于在Linux下进行远程拷贝文件的命令，和它类似的命令有cp，不过cp只是在本机进行拷贝不能跨服务器，而且scp传输是加密的。当你服务器硬盘变为只读 read only system时，用scp可以帮你把文件移出来。注解类似的工具有rsync；scp消耗资源少，不会提高多少系统负荷，在这一点上，rsync就远远不及它了。rsync比scp会快一点

2016-05-12 20:29:48 1109

原创 gdb 调试利器

GDB是一个由GNU开源组织发布的、UNIX/LINUX操作系统下的、基于命令行的、功能强大的程序调试工具。对于一名Linux下工作的c++程序员，gdb是必不可少的工具；1.1. 启动gdb对C/C++程序的调试，需要在编译前就加上-g选项:$g++ -g hello.cpp -o hello调试可执行文件:$gdb prog

2016-05-12 20:25:52 1052

原创 python的xlsxwriter库简要分析

一、xlsxwriter 基本用法，创建 xlsx 文件并添加数据　　官方文档：http://xlsxwriter.readthedocs.org/　　　　xlsxwriter 可以操作 xls 格式文件　　注意：xlsxwriter 只能创建新文件，不可以修改原有文件。如果创建新文件时与原有文件同名，则会覆盖原有文件　　Linux 下安装： sudo pip i

2016-05-12 20:22:05 6984

原创 Python输出百分比

if __name__ == '__main__': a = 0.3214323 print "%.2f%%" % (a * 100)format（数值，‘m.n%’）关于m和n的含义，和前面的一样，%表示将要数值转换成百分数。举例如下：>>> print (format(0.5,'0.1%')) 50.0% >>> pr

2016-05-12 16:19:39 1887

原创 python精确除法

在C/C++语言对于整形数执行除法会进行地板除（舍去小数部分）。例如 int a=15/10; a的结果为1。同样的在Java中也是如此，所以两个int型的数据相除需要返回一个浮点型数据的时候就需要强制类型转换，例如 float a = (float)b/c ,其中b、c都是int型数据。Python中分为3种除法：传统除法、精确除法、地板除。传统除法如果是整数

2016-05-12 15:07:04 6273

原创解决远程登陆误按ctrl+s锁屏假死恢复

使用putty时，屏幕假死的问题很多刚从windows转移到linux上来工作的朋友,在用vi/vim编辑文件时,常常会习惯性的按下Ctrl+s来保存文件内容.殊不知这样按下去后面会造成整个终端不响应了,ssh连接还好说,直接关闭ssh连接再重新连接就可以了,但在服务器前使用的话,就只能眼睁睁的看着干着急,稍微懂点的就用alt+f2/3/4切换到其他控制台去操作了.其实正确的方法是ctrl

2016-05-11 15:36:08 3121

原创 hadoop命令 -- job相关

hadoop命令行与job相关的：命令行工具 • 1.查看 Job 信息：hadoop job -list 2.杀掉 Job： hadoop job –kill job_id3.指定路径下查看历史日志汇总：hadoop job -history output-dir 4.作业的更多细节： hadoop job -history all output-dir

2016-05-11 11:12:30 1447

原创 python用BeautifulSoup抓取知乎小药丸

环境：python2.7+BeautifulSoup的库，如果安装了pip，就直接pip install BeautifulSoup就ok。直接上代码吧。# -*- coding: utf-8 -*-import urllib2from BeautifulSoup import BeautifulSoupf = open('Answer.txt','w') for page

2016-05-11 09:53:50 1819

原创 mysql保存文件

在mysql中如果我们要把查询导出来保存.sql文件我们可以使用into outfile或mysql -uroot -p就可以实现了，下面我来给大家介绍介绍。 1.新建查询语句文件query.sql，内容如下: use appdb;set names utf8;select FeedID, City , Message from Feed limit 1000;

2016-05-10 21:30:32 3251

原创 linux中curl指令的简要分析

curl是一种命令行工具，作用是发出网络请求，然后得到和提取数据，显示在"标准输出"（stdout）上面。它支持多种协议，下面举例讲解如何将它用于网站开发。一、查看网页源码直接在curl命令后加上网址，就可以看到网页源码。我们以网址www.sina.com为例（选择该网址，主要因为它的网页代码较短）：　　$ curl www.sina.com　　　　　　301 Moved P

2016-05-10 13:55:01 4405

原创 python查询IP对应的地理位置

这次我们使用淘宝给出的接口进行调用。原本还想用在项目中做统计分析，但是感觉数据量大了之后会出现问题。#coding = utf-8import urllib2import jsonip = "182.90.42.221"apiurl = "http://ip.taobao.com/service/getIpInfo.php?ip=%s" % ipcontent = urllib2.u

2016-05-09 16:48:57 3847

原创 mysql中case、when、if、then的用法

概述：sql语句中的case语句与高级语言中的switch语句，是标准sql的语法，适用于一个条件判断有多种值的情况下分别执行不同的操作。首先，让我们看一下CASE的语法。在一般的SELECT中，其语法格式如下： CASE WHEN THEN WHEN THEN ... WHEN THEN

2016-05-06 15:53:01 17462

原创 linux下的切割文件命令split

将一个大文件分成若干个小文件方法例如将一个BLM.txt文件分成前缀为 BLM_ 的1000个小文件，后缀为系数形式，且后缀为4位数字形式先利用wc -l BLM.txt 读出 BLM.txt 文件一共有多少行再利用 split 命令split -l 2482 ../BLM/BLM.txt -d -a 4 BLM_将文件 BLM.txt

2016-05-03 14:25:20 1228

京东放养的爬虫