自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (1)
  • 收藏
  • 关注

原创 二叉树基本操作—Java实现

package muyanmoyang.data.BTree;/** * 二叉树的节点 * @author hadoop * */class BtNode { String data ; BtNode lchild ; BtNode rchild ; public BtNode(String data, BtNode lchild, BtNode rchild) { su

2015-11-03 01:20:33 448

原创 Spark源码—AKKA驱动下的Driver、Master、Worker

Spark源码调度—AKKA驱动下的Driver、Master、Worker 调度机制版本:Spark 1.1.0

2015-10-23 21:56:16 490

原创 Spark源码—Job Runtime

Spark内核源码调度图: Job Runtime版本:Spark 1.1.0

2015-10-23 21:54:03 648

原创 HDFS文件写入与读取

HDFS文件写入与读写副本(3个)选择策略说明:1. 若client为DataNode节点,那存储block时,规则为:副本1,同client的节点上;副本2,不同机架节点上;副本3,同第二个副本机架的另一个节点上;其他副本随机挑选。2. 若client不为DataNode节点,那存储block时,规则为:副本1,随机选择一个节点上;副本2,不同副本1,机架上;副本3,同副

2015-09-13 15:38:31 1380

原创 数据挖掘——贝叶斯公式与朴素贝叶斯分类

数据挖掘——贝叶斯公式与朴素贝叶斯分类1.   条件概率      条件概率(又称后验概率)就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。      比如,在同一个样本空间Ω中的事件或者子集A与B,如果随机从Ω中选出的一个元素属于B,那么这个随机选择的元素还属于A的概率就定义为在B的前提下A的条件概率,所以:P(A|B) =

2015-09-12 22:35:13 1063

转载 Hadoop计算中的Shuffle过程

Shuffle 过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce,Shuffle是必须要了解的。我看过很多相关的资料,但每次看 完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所 以在这

2015-09-12 11:32:34 327

原创 Hadoop/MapReduce性能优化------参数调优

Hadoop/MapReduce参数调优Hadoop性能优化涉及以下几个方面:1.   CPU利用率2.   内存占用情况3.   磁盘I/O4.   网络流量        与工作负载相关的Hadoop性能优化需要关注以下三个方面:系统硬件、系统软件、Hadoop基础设施组件配置和调优。系统管理员可以通过各种配置选项对Hadoop集群进行优化。在建立和维护Hadoop集群

2015-09-08 22:25:01 852

转载 shell中的${},##和%%的使用

假设我们定义了一个变量为:file=/dir1/dir2/dir3/my.file.txt可以用${ }分别替换得到不同的值:${file#*/}:删掉第一个 / 及其左边的字符串:dir1/dir2/dir3/my.file.txt${file##*/}:删掉最后一个 /  及其左边的字符串:my.file.txt${file#*.}:删掉第一个 .  及其左边的字符串:

2015-09-07 16:47:18 276

原创 Spark1.0.0 集群配置

1.   机器:(1)master :主机名:hadoop-1         IP:202.193.74.111(2)slave1 :主机名: hadoop-2         IP:202.193.74.112(3)slave2 :主机名: hadoop-3         IP:202.193.74.113已经部署好了hadoop分布式集群环境,hadoop版本为1.1.2(

2015-09-05 23:06:04 492

原创 Linux kill命令

控制进程:      当需要中断一个前台进程的时候,通常用Ctrl+c组合键;但是对于一个后台进程则无法用此方法,需要用到kill命令,该命令可以终止后台进程。Kill通常像一个进程发送一个信号来控制进程,信号可以是数字,也可以是名称,默认情况下,kill向进程发送进程号15,即terninate,以通知进程结束,会杀死不能俘获该信号的进程。对于其他进程, 可能需要使用 KILL (9)

2015-09-03 21:56:38 429

原创 Linux export 命令

Linux  export 命令         在Linux中运行shell脚本程序时,系统将创建一个子shell。此时,系统中将有两个shell,一个是登录时系统启动的shell,另一 个是系统为运行脚本程序创建的shell。当一个脚本程序运行完毕,它的脚本shell将终止,可以返回到执行该脚本之前的shell。        一个变量创建时,它不会自动地为在它之后创建的shell进程

2015-09-03 20:47:00 446

原创 Shell编程练习题

一、编写一个脚本使我们在写一个脚本时自动生成”#!/bin/bash”这一行和注释信息。# !/bin/bashif ! grep "^#!" $1&>/dev/null ;thencat >> $1<< EOF#!/bin/bash# Author:#Date & Time: `date +"%F %T"`#Description:EOFfivim +5 $1

2015-08-31 17:18:09 4076

原创 文本挖掘—搜狗语料库数据预处理

package muyanmoyang.text_classify.Classify;import java.io.BufferedReader;import java.io.File;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.FileWriter;import java.

2015-05-10 14:15:48 4513

转载 本文转自“我爱自然语言处理”:www.52nlp.cn ----立委随笔:机器学习和自然语言处理

立委随笔:机器学习和自然语言处理发表于 2010年02月23号 由 52nlp  不小心撞上了科学网上李维老师的博客,读了他个人履历和几篇文章,只能用“敬佩”二字对李维老师表示敬意。作为年后开工的第一篇博文,本无转载计划的,但是这里还是选用李维老师的随笔《机器学习和自然语言处理》,这是一位计算语言学学者和自然语言处理实践者多年来的经验之谈,没有相当的积累,纸上是谈不来的。不过,

2015-05-05 22:15:21 719

JAVA设计模式研究之抽象工厂模式

JAVA设计模式研究之抽象工厂模式,工厂设计模式

2014-09-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除