yueshuangfei-CSDN博客

原创 Spark源码阅读环境配置，以及手动编译Spark源码

配置Spark源码阅读环境过程：用Maven搭建，请参考这篇文章：http://my.oschina.net/zc741520/blog/499138用sbt搭建，请参考知乎系列回答：http://www.zhihu.com/question/24238887自身实践时，遇到sbt的一些问题，比如http://stackoverflow.com/questions/3163

2015-09-08 10:31:29 369

原创集群重新安装的问题列表

问题列表：普通用户使用./sbin/start-all.sh之后，为什么50070页面显示不了呢，而且jps也无法得到正确的结果？？还有一个需要解决的任务是，zyf的23-26号节点的问题解决了吗？为什么点击连接VPN之后，会断开与主节点的连接？设置新的路由规则，让其重启也会生效，是保存在那个文件夹里的？xiangr可以操作./sbin/stop

2015-05-17 13:22:57 518

转载 Spark1.3.1集群安装

spark的集群安装相对来说比hadoop的集群安装容易，我主要参考了这篇博客：http://blog.csdn.net/bluejoe2000/article/details/41391407安装之后，对于一些配置文件需要修改，例如：conf/目录下的spark.enc.sh、spark-default.conf、slaves文件。

2015-05-16 21:38:09 341

原创集群Hadoop安装错误总结

主要是两个错误：1. Call From master/192.168.1.254 to master:54300 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org/hadoop/Connec

2015-05-16 16:12:26 450

转载 VNCServer 安装与使用 -- 重装服务器系统过程

主要参考了一下资料：http://blog.csdn.net/yueshuangfei/article/details/43275071https://gruffdba.wordpress.com/2013/03/26/adding-vnc-server-to-red-hat-enterprise-linux-6-3/关键是，我们在使用ustc的mirror安装VN

2015-05-15 13:11:07 2084

原创 Hadoop大数据实验

实验1本次实验的报告存放在课程文件夹里，需要注意的是：1. 本次我的用户并没有在/home目录下生成对应的用户目录，原因是我按照书上的操作手册，少了-d /home/user这一句（PPT中有）2. 我安装的是1.2.1版本，最新版为2.6.0，如果用最新版安装端口会有所变化，比如50030变成了80803. 对于单机和伪分布式的区别，我似乎还不是非常清楚4. 对于linux下

2015-04-07 21:13:57 851

转载 linux文件权限修改命令

最近老师让我将 Tencent 的数据保存到集群上，要求是让别人无法访问到这个文件，因此到网上搜索关于文件权限的文章，时间有限以及备份所需，现在这儿mark一下，这是看到的一篇比较完善的博客了：http://www.cnblogs.com/avril/archive/2010/03/23/1692809.html

2015-03-25 16:40:58 404

原创 spark大数据处理技术--阅读笔记

3.14：由于版本的变更，会导致某些程序和原来发生变化，比如书中（夏俊鸾等著）P21中的程序无法重现。

2015-03-14 17:44:03 495

原创 Spark理解之寒假及开学任务

根据老师的部署，寒假之后有项目要跟进，所以本假期的任务就是熟悉MLlib以及如何使用自己的机器学习算法在Spark上编程（主要用Scala语言），任务主要分为以下模块：1. 理解扩展性——见另一篇博客，这篇博客也对Spark实现的配置细节进行了总结；2. 熟悉MLlib里面每一个算法的原理和源码；3. 使用Spark Summit的Hans-on练习（如电影推荐系统）；4. 用自己

2015-02-10 21:38:30 590

原创构建一个Scala程序

希望将Spark-LIBLINEAR-1.95的jar包作为一个dependency放到新建的Spark Application中，主函数的代码如下：import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.SparkConfimport org.a

2015-02-10 19:06:12 677

原创 Spark基本配置的理解--从验证spark扩展性出发

最近在做Spark扩展性的测试，使用了CJ-Lin的 http://www.csie.ntu.edu.tw/~cjlin/papers/spark-liblinear/spark-liblinear.pdf 这篇论文，我想重新实现上面的Spark-LIBLINEAR扩展性实验，但是在自己做的时候却发现随着机器数目的增加，我的方法完全没有扩展性，下面是我的spark-env.sh实验配置文件:

2015-02-07 17:23:21 1320

原创服务器IP分配以及路由表配置

Redhat6.5服务器系统，一个主节点，28个从节点。master网络配置的文件在 /etc/sysconfig/network-scripts 中，ls之后如下所示：之后再配置em1，vi ifcfg-em1，显示：输入route -n，显示：一个分配了IP的从节点（node26）IP和路由表的配置如下：vi /etc/sysconf

2015-01-29 19:22:36 1837

原创 yum update 问题

部分内容转载自http://blog.chinaunix.net/uid-25046147-id-3060827.html由于服务器自身的yum源需要收费，否则显示未注册，所以我将原来的yum卸载，并安装中科大源 (http://mirrors.ustc.edu.cn) 的yum，具体步骤如下：1. 卸载Redhat自带的yum：rpm -qa | grep yum | xargs

2015-01-29 16:10:03 841

yueshuangfei的专栏