2015年04月_wjcquking

04月 03月 01月

原创 Hadoop启动后无法看到DataNode

首先我查看NameNode没有发现错误，开始以为是Uuid的问题，以前碰到过，就是Namenode和Datanode的的Uuid不一致，导致不能识别，之后删除 /dfs/name(NameNode)和 /dfs/data(DataNode)的 current文件，这样就可以重新生成uuid，但是依旧有问题开始怀疑电脑之间不能识别，但是通过SSH，NameNode可以到任何一台DataNode,

2015-04-27 10:40:25 23219 2

原创 Linux查找占用的端口，并杀死进程

我要使用4040端口，但是被其他的程序占用了1. 查找占用的程序netstat -apn | grep 4040最后一项显示的是pid和对应的名称2. 杀掉对应的进程，彻底杀死进程kill -9 26105

2015-04-26 22:00:54 68395 4

原创 Spark在VM的hadoop架构基础上安装

cluster配置1 namenode，4 datanode1. 下载Spark和Scala本人下载的是Spark-2.6.0 和 Scala 2.11.6spark下载地址点击打开链接scala下载地址点击打开链接2. 解压scala，配置scala的环境变量tar -zxf scala-2.11.6.tgz之后将文件移动到 /usr/lib/scal

2015-04-26 19:57:30 2779

原创 Linux限制网速

因为最近做实验，需要在不同的网速下跑Hadoop程序，查看网速对程序的影响有多大，所以需要有可以控制网速的软件，最后找到一款wondershaper，这款软件确实可以限制网速但是最后出现一个问题我设置了传输限制为100MB,但是施加两者之间的传输速度才仅仅几十K，hadoop框架整个完全瘫痪了，有的时候根本访问不到数据，最后甚至到了都无法SSH到节点了，整个系统瘫痪了，不知道这个wonde

2015-04-14 10:59:20 12059 1

原创 Ubuntu不进入休眠模式

Ubuntu不进入休眠模式System-> Preferences->Screensaver将下面两个勾选去掉

2015-04-13 15:26:13 74531

原创数据仓库学习（2）

这次主要回答以下几个问题这次的内容会参考书籍《数据仓库》第四版，William H. Inmon中文翻译版1. 什么是数据仓库数据仓库是一种面向主题的，集成的，相对稳定的，反映历史变化的数据集合，用于支持管理决策。数据仓库是为企业所有级别的决策制定过程提供的所有类型数据的战略集合。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。数据仓库是根据源自操

2015-04-05 23:51:06 1131

原创一个菜鸟眼中的大数据（1）

现在这个时代大数据是一个非常火的话题，作为一个计算机的菜鸟，虽然现在是个研究僧，但是没有接触过真正公司的大数据的计算，所有关于大数据的东西都是从网上和自己的研究来得到的，自己没有切身的体会，现在谈谈自己的认识开始我一直以为大数据都是IT行业的事情，和平常人的关系不大，但是13年底我到南京去玩，在南京博物馆外边的公交站等车的时候，居然在广告牌上发现了大数据这个词，而且还是一个娱乐公司提供的大数据

2015-04-04 16:59:34 1562