盐神-CSDN博客

原创二叉树基本操作—Java实现

package muyanmoyang.data.BTree;/** * 二叉树的节点 * @author hadoop * */class BtNode { String data ; BtNode lchild ; BtNode rchild ; public BtNode(String data, BtNode lchild, BtNode rchild) { su

2015-11-03 01:20:33 448

原创 Spark源码—AKKA驱动下的Driver、Master、Worker

Spark源码调度—AKKA驱动下的Driver、Master、Worker 调度机制版本：Spark 1.1.0

2015-10-23 21:56:16 490

原创 Spark源码—Job Runtime

Spark内核源码调度图： Job Runtime版本：Spark 1.1.0

2015-10-23 21:54:03 648

原创 HDFS文件写入与读取

HDFS文件写入与读写副本（3个）选择策略说明：1. 若client为DataNode节点，那存储block时，规则为：副本1，同client的节点上；副本2，不同机架节点上；副本3，同第二个副本机架的另一个节点上；其他副本随机挑选。2. 若client不为DataNode节点，那存储block时，规则为：副本1，随机选择一个节点上；副本2，不同副本1，机架上；副本3，同副

2015-09-13 15:38:31 1380

原创数据挖掘——贝叶斯公式与朴素贝叶斯分类

数据挖掘——贝叶斯公式与朴素贝叶斯分类1. 条件概率条件概率（又称后验概率）就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B)，读作“在B条件下A的概率”。比如，在同一个样本空间Ω中的事件或者子集A与B，如果随机从Ω中选出的一个元素属于B，那么这个随机选择的元素还属于A的概率就定义为在B的前提下A的条件概率，所以：P(A|B) =

2015-09-12 22:35:13 1063

转载 Hadoop计算中的Shuffle过程

Shuffle 过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce，Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job性能调优的工作，需要深入代码研究MapReduce的运行机制，这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火，所以在这

2015-09-12 11:32:34 327

原创 Hadoop/MapReduce性能优化------参数调优

Hadoop/MapReduce参数调优Hadoop性能优化涉及以下几个方面：1. CPU利用率2. 内存占用情况3. 磁盘I/O4. 网络流量与工作负载相关的Hadoop性能优化需要关注以下三个方面：系统硬件、系统软件、Hadoop基础设施组件配置和调优。系统管理员可以通过各种配置选项对Hadoop集群进行优化。在建立和维护Hadoop集群

2015-09-08 22:25:01 852

转载 shell中的${}，##和%%的使用

假设我们定义了一个变量为：file=/dir1/dir2/dir3/my.file.txt可以用${ }分别替换得到不同的值：${file#*/}：删掉第一个 / 及其左边的字符串：dir1/dir2/dir3/my.file.txt${file##*/}：删掉最后一个 / 及其左边的字符串：my.file.txt${file#*.}：删掉第一个 . 及其左边的字符串：

2015-09-07 16:47:18 276

原创 Spark1.0.0 集群配置

1. 机器：（1）master ：主机名：hadoop-1 IP：202.193.74.111（2）slave1 ：主机名： hadoop-2 IP：202.193.74.112（3）slave2 ：主机名： hadoop-3 IP：202.193.74.113已经部署好了hadoop分布式集群环境，hadoop版本为1.1.2（

2015-09-05 23:06:04 492

原创 Linux kill命令

控制进程：当需要中断一个前台进程的时候，通常用Ctrl+c组合键；但是对于一个后台进程则无法用此方法，需要用到kill命令，该命令可以终止后台进程。Kill通常像一个进程发送一个信号来控制进程，信号可以是数字，也可以是名称，默认情况下，kill向进程发送进程号15，即terninate，以通知进程结束，会杀死不能俘获该信号的进程。对于其他进程, 可能需要使用 KILL (9)

2015-09-03 21:56:38 429

原创 Linux export 命令

Linux export 命令在Linux中运行shell脚本程序时，系统将创建一个子shell。此时，系统中将有两个shell，一个是登录时系统启动的shell，另一个是系统为运行脚本程序创建的shell。当一个脚本程序运行完毕，它的脚本shell将终止，可以返回到执行该脚本之前的shell。一个变量创建时，它不会自动地为在它之后创建的shell进程

2015-09-03 20:47:00 446

原创 Shell编程练习题

一、编写一个脚本使我们在写一个脚本时自动生成”#!/bin/bash”这一行和注释信息。# !/bin/bashif ! grep "^#!" $1&>/dev/null ;thencat >> $1<< EOF#!/bin/bash# Author:#Date & Time: `date +"%F %T"`#Description:EOFfivim +5 $1

2015-08-31 17:18:09 4076

原创文本挖掘—搜狗语料库数据预处理

package muyanmoyang.text_classify.Classify;import java.io.BufferedReader;import java.io.File;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.FileWriter;import java.

2015-05-10 14:15:48 4513

转载本文转自“我爱自然语言处理”：www.52nlp.cn ----立委随笔：机器学习和自然语言处理

立委随笔：机器学习和自然语言处理发表于 2010年02月23号由 52nlp　　不小心撞上了科学网上李维老师的博客，读了他个人履历和几篇文章，只能用“敬佩”二字对李维老师表示敬意。作为年后开工的第一篇博文，本无转载计划的，但是这里还是选用李维老师的随笔《机器学习和自然语言处理》，这是一位计算语言学学者和自然语言处理实践者多年来的经验之谈，没有相当的积累，纸上是谈不来的。不过，

2015-05-05 22:15:21 719

muyanmoyang的专栏