自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

京东放养的爬虫

努力成为一个优秀的人,我在北京要活的精彩。

  • 博客(31)
  • 资源 (2)
  • 问答 (2)
  • 收藏
  • 关注

原创 hadoop 清空回收站

Hadoop回收站trash,默认是关闭的。 建议最好还是把它提前开开,否则误操作的时候,就。。。了1.修改conf/core-site.xml,增加property> name>fs.trash.intervalname> value>1440value> description>Number of minutes between trash checkpoints.

2016-05-27 11:44:58 2140

原创 Linux 下查看本机 IP 地址

在 linux 下可以通过两个命令来查看本机的 IP 地址: 支持包括 Linux 在内的所有 Unix 系统。Shell代码  $ /sbin/ifconfig  仅就 Linux 而言,也可以使用 ip 命令查看 Shell代码  # ip addr show

2016-05-27 10:45:15 4221

原创 shell统计文件里面特定字符串出现次数

下面三个方法都可以完成这个需求 1.第一种方法:使用grep命令进行统计grep -o '字符串' file | wc -l 2.第二种方法:使用awk命令进行统计awk -v RS="@#$j" '{print gsub(/字符串/,"&")}'file 3.第三种方法:另一种使用awk命令进行统计的方法awk '{s+=gsub(/字符串/,"&")}END

2016-05-26 19:44:25 12004

原创 python中包含UTF-8编码中文的列表或字典的输出

在python 下面一个包含中文字符串的列表(list)或字典,直接使用print会出现以下的结果:dict = {"asdf": "我们的python学习"}print dict{'asdf': '\xe6\x88\x91\xe4\xbb\xac\xe7\x9a\x84python\xe5\xad\xa6\xe4\xb9\xa0'}在输出处理好的数据结构的时候很不方便,需要使

2016-05-26 09:33:32 12792

原创 Hive几种参数配置方法

Hive提供三种可以改变环境变量的方法,分别是:(1)、修改${HIVE_HOME}/conf/hive-site.xml配置文件;(2)、命令行参数;(3)、在已经进入cli时进行参数声明。下面分别来介绍这几种设定。  方法一:  在Hive中,所有的默认配置都在${HIVE_HOME}/conf/hive-default.xml文件中,如果需要对默认的配置进行修改,可以创建一个hi

2016-05-25 18:00:50 1064

原创 hadoop2.5集群迁移namenode

我的hadoop集群是2.5.0的集群。 hadoop是机器不相关的,迁移namenode的话,可以按以下步骤迁移。 1、关闭所有hadoop集群、zookeeper、hive、hbase集群,设置hosts和ssh互信,调整服务器时间 2、拷贝hadoop的目录和相应的数据目录到新namenode主机,要保持新旧主机的目录一致。 3、修改$HADOOP_HOME/

2016-05-25 17:50:45 1249

原创 hadoop版本和位数的查看方法

目前针对apache hadoop更新的版本较多,由此而产生了两个方面的问题:   1、如何查看运行的集群当中的hadoop的版本的问题。   2、如何查看运行集群当中的hadoop的位数 下面详细的介绍一下 1、查看版本信息 通过在集群上执行:hadoopversion  命令可以查看对应的hadoop的版本。 2、查看hadoop集群的位数 

2016-05-25 17:49:54 4507

原创 Redis常用命令

Redis常用命令集1)连接操作命令quit:关闭连接(connection)auth:简单密码认证help cmd: 查看cmd帮助,例如:help quit2)持久化save:将数据同步保存到磁盘bgsave:将数据异步保存到磁盘lastsave:返回上次成功将数据保存到磁盘的Unix时戳shundown:将数据同步保存到磁盘,然后关闭服务3)远

2016-05-24 12:37:16 1049

原创 删除文件中的 ^M 字符

有时候,我们在 Linux 中打开曾在 Win 中编辑过的文件时,会在行尾看到 ^M 字符。虽然,这并不影响什么,但心里面还是有点不痛快。如果想要删除这些 ^M 字符,可以使用 Vim 来轻松搞定它。sed -i 's/^M//g' filename#注意:^M的输入方式是 Ctrl + v ,然后Ctrl + M

2016-05-24 12:36:10 1016

原创 shell指令expr使用指南

在Linux shell命令中expr虽然不是很起眼,但是它的作用是非常大的!到目前为止,我个人看来最大的作用就是两个——四则运算和字符串的操作。 先说四则运算,在Shell中四则运算不能简简单单的加减乘除,应该要写如下的格式: $val1=`$val2 - 1` 其中“=”后面用“`”包住表达式,这个符号在Shell中十分有用,是Tab键上面“~”的原来形式。可以用来将很多命

2016-05-24 10:29:24 1396

原创 利用map代替for实现并行化

Python 在程序并行化方面多少有些声名狼藉。撇开技术上的问题,例如线程的实现和 GIL1,我觉得错误的教学指导才是主要问题。常见的经典 Python 多线程、多进程教程多显得偏“重”。而且往往隔靴搔痒,没有深入探讨日常工作中最有用的内容。传统的例子简单搜索下“Python 多线程教程”,不难发现几乎所有的教程都给出涉及类和队列的例子:#Example.py''

2016-05-23 18:14:06 2062

原创 shell字符串的截取

shell字符串的截取的问题:一、Linux shell 截取字符变量的前8位,有方法如下:1.expr substr “$a” 1 82.echo $a|awk ‘{print substr(,1,8)}’3.echo $a|cut -c1-84.echo $5.expr $a : ‘\(.\\).*’6.echo $a|dd bs=1 count=8 2>/dev/

2016-05-20 09:47:13 1095

原创 Azkaban——使用指南

登录https://localhost:8443注意是https,采用的是jetty ssl链接。输入账号密码azkaban/azkanban(如果你之前没有更改的话)                                                 图1 首页首页有四个菜单projects:最重要的部分,创建一个工程,所有fl

2016-05-17 18:37:42 10259 3

原创 Azkaban——安装指南

最近项目迁移到新集群,试试同事推荐的开源任务调度程序-azkaban(阿兹卡班),没看错,就是哈利波特里的阿兹卡班,azikaban主要用来解决hadoop依赖任务的执行,但是它本身支持linux和java程序,因此适合做小项目的任务调度管理程序。Azkaban官网它有三个重要组件:关系数据库(目前仅支持mysql)web管理服务器-AzkabanWebServer执行服务

2016-05-17 18:02:04 3709 1

原创 crontab 定时任务

通过crontab 命令,我们可以在固定的间隔时间执行指定的系统指令或 shell script脚本。时间间隔的单位可以是分钟、小时、日、月、周及以上的任意组合。这个命令非常适合周期性的日志分析或数据备份等工作。19.1. 命令格式crontab [-u user] [ -e | -l | -r ]19.2. 命令参数-u user:用来设定某个用户的cro

2016-05-17 16:20:12 1237

原创 机器学习基础

何为机器学习:简单地说,机器学习就是把无序的数据转换成有用的信息,利用计算机来彰显数据背后的真实含义;机器学习横跨计算机科学、工程技术和统计学多个学科,需要多学科的专业知识;机器学习对于任何需要解释并操作数据的领域都有所裨益。关键术语:特征(or 属性):如鸟的体重、翼展、脚蹼等特征。目标变量:机器学习算法的预测结果。在分类算法中目标变量的类型通常是标称型(离散型数据,变量

2016-05-15 10:26:53 2491

原创 基于Flume的美团日志收集系统(二)改进和优化

来自:美团技术博客http://tech.meituan.com/mt-log-system-optimization.html在《基于Flume的美团日志收集系统(一)架构和设计》中,我们详述了基于Flume的美团日志收集系统的架构设计,以及为什么做这样的设计。在本节中,我们将会讲述在实际部署和使用过程中遇到的问题,对Flume的功能改进和对系统做的优化。1 Fl

2016-05-13 14:15:33 2152

原创 基于Flume的美团日志收集系统(一)架构和设计

来自:美团技术博客http://tech.meituan.com/mt-log-system-arch.html美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流。美团的日志收集系统基于Flume设计和搭建而成。《基于Flume的美团日志收集系统》将分两部分给读者呈现美团日志收集系统的架构设计和实战经验。

2016-05-13 13:27:37 11031

原创 scp 跨机远程拷贝

scp是secure copy的简写,用于在Linux下进行远程拷贝文件的命令,和它类似的命令有cp,不过cp只是在本机进行拷贝不能跨服务器,而且scp传输是加密的。当你服务器硬盘变为只读 read only system时,用scp可以帮你把文件移出来。注解类似的工具有rsync;scp消耗资源少,不会提高多少系统负荷,在这一点上,rsync就远远不及它了。rsync比scp会快一点

2016-05-12 20:29:48 1109

原创 gdb 调试利器

GDB是一个由GNU开源组织发布的、UNIX/LINUX操作系统下的、基于命令行的、功能强大的程序调试工具。 对于一名Linux下工作的c++程序员,gdb是必不可少的工具;1.1. 启动gdb对C/C++程序的调试,需要在编译前就加上-g选项:$g++ -g hello.cpp -o hello调试可执行文件:$gdb prog

2016-05-12 20:25:52 1052

原创 python的xlsxwriter库简要分析

一、xlsxwriter 基本用法,创建 xlsx 文件并添加数据   官方文档:http://xlsxwriter.readthedocs.org/    xlsxwriter 可以操作 xls 格式文件  注意:xlsxwriter 只能创建新文件,不可以修改原有文件。如果创建新文件时与原有文件同名,则会覆盖原有文件  Linux 下安装: sudo pip i

2016-05-12 20:22:05 6984

原创 Python输出百分比

if __name__ == '__main__': a = 0.3214323 print "%.2f%%" % (a * 100)format(数值,‘m.n%’)关于m和n的含义,和前面的一样,%表示将要数值转换成百分数。举例如下:>>> print (format(0.5,'0.1%')) 50.0% >>> pr

2016-05-12 16:19:39 1887

原创 python精确除法

在C/C++语言对于整形数执行除法会进行地板除(舍去小数部分)。例如 int a=15/10; a的结果为1。同样的在Java中也是如此,所以两个int型的数据相除需要返回一个浮点型数据的时候就需要强制类型转换,例如 float a = (float)b/c ,其中b、c都是int型数据。Python中分为3种除法:传统除法、精确除法、地板除。传统除法如果是整数

2016-05-12 15:07:04 6273

原创 解决远程登陆误按ctrl+s锁屏假死恢复

使用putty时,屏幕假死的问题很多刚从windows转移到linux上来工作的朋友,在用vi/vim编辑文件时,常常会习惯性的按下Ctrl+s来保存文件内容.殊不知这样按下去后面会造成整个终端不响应了,ssh连接还好说,直接关闭ssh连接再重新连接就可以了,但在服务器前使用的话,就只能眼睁睁的看着干着急,稍微懂点的就用alt+f2/3/4切换到其他控制台去操作了.其实正确的方法是ctrl

2016-05-11 15:36:08 3121

原创 hadoop命令 -- job相关

hadoop命令行 与job相关的:命令行工具 • 1.查看 Job 信息:hadoop job -list 2.杀掉 Job: hadoop  job –kill  job_id3.指定路径下查看历史日志汇总:hadoop job -history output-dir 4.作业的更多细节: hadoop job -history all output-dir

2016-05-11 11:12:30 1447

原创 python用BeautifulSoup抓取知乎小药丸

环境:python2.7+BeautifulSoup的库,如果安装了pip,就直接pip install BeautifulSoup就ok。直接上代码吧。# -*- coding: utf-8 -*-import urllib2from BeautifulSoup import BeautifulSoupf = open('Answer.txt','w') for page

2016-05-11 09:53:50 1819

原创 mysql保存文件

在mysql中如果我们要把查询导出来保存.sql文件我们可以使用into outfile或mysql -uroot -p就可以实现了,下面我来给大家介绍介绍。 1.新建查询语句文件query.sql,内容如下: use appdb;set names utf8;select FeedID, City , Message from Feed limit 1000;

2016-05-10 21:30:32 3251

原创 linux中curl指令的简要分析

curl是一种命令行工具,作用是发出网络请求,然后得到和提取数据,显示在"标准输出"(stdout)上面。它支持多种协议,下面举例讲解如何将它用于网站开发。一、查看网页源码直接在curl命令后加上网址,就可以看到网页源码。我们以网址www.sina.com为例(选择该网址,主要因为它的网页代码较短):  $ curl www.sina.com      301 Moved P

2016-05-10 13:55:01 4405

原创 python查询IP对应的地理位置

这次我们使用淘宝给出的接口进行调用。原本还想用在项目中做统计分析,但是感觉数据量大了之后会出现问题。#coding = utf-8import urllib2import jsonip = "182.90.42.221"apiurl = "http://ip.taobao.com/service/getIpInfo.php?ip=%s" % ipcontent = urllib2.u

2016-05-09 16:48:57 3847

原创 mysql中case、when、if、then的用法

概述:sql语句中的case语句与高级语言中的switch语句,是标准sql的语法,适用于一个条件判断有多种值的情况下分别执行不同的操作。 首先,让我们看一下CASE的语法。在一般的SELECT中,其语法格式如下:  CASE         WHEN THEN        WHEN THEN        ...       WHEN THEN  

2016-05-06 15:53:01 17462

原创 linux下的切割文件命令split

将一个大文件分成若干个小文件方法例如将一个BLM.txt文件分成前缀为 BLM_ 的1000个小文件,后缀为系数形式,且后缀为4位数字形式先利用wc -l BLM.txt       读出 BLM.txt 文件一共有多少行再利用 split 命令split -l 2482 ../BLM/BLM.txt -d -a 4 BLM_将 文件 BLM.txt

2016-05-03 14:25:20 1228

数电报告莫版

数电报告莫版

2012-07-12

数电课件科技

数电课件

2012-07-12

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除