05/20
1.解决无法启动spark集群的spark-shell问题
- 从master节点上复制目录到worker节点上,但是权限有问题。先从master节点切换到root, 然后进入到spark目录,scp所有东西到worker的/home/spark/spark目录上,然后在worker节点上切换到root,然后用mv命令将spark目录移到/opt/目录里,不能用cp,因为用cp复制后的目录会变为root的权限,master节点无法启动root权限的spark程序,用mv则会保持spark权限。
总结:还都是权限问题
2.尝试在集群上跑eigenCentrality程序,但是得到无法找到主机路由器的错误,估计是由于安装hadoop的服务器出现故障,暂且放下。
3.看spark storage模块的源码
05/21
1.今天尝试着写基于TDA里面内容的情感分析的朴素贝叶斯分类器,代码基本上完成。但是由于没有测试,无法判断正确性,下一步是测试程序。
程序的代码: http://blog.csdn.net/u010398018/article/details/26478409
2. map filter
val a = HashMap("a"->(1,0), "b"->(0,0), "c"->(0,1))
a retain {(key,value)=> value._1 != 0 || value._2 != 0} //保留值不为0的项
3.做了一个测试
classiferPara: (Int, Double, Double) = (3096,0.837532299741602,0.16246770025839793)
val twitt = "thing NYC could do to #Occupy is what they are doing right now. Suppression always always has the opposite effect"
("NYC", (0,2)) | ("thing", (1,3)) | ("could", (1,1)) | ("#Occupy", (8, 1)) | ("right", (2,4))
05/22
1.学习lda主题模型(未完成),该模型需要的知识有EM算法,拉格朗日极值法,下载了一些资料学习。
2.整理fasting data computing with spark的学习计划
05/23
1.为了将地铁的数据处理成spark适合调用的格式,学习了scala处理xml文件的内容,scala内置了对xml处理的能力,十分好用,但是也存在一些容易令人误会的地方,
特别是当xml的标签换行时,scala会将换行符当成一个元素,这点需要注意。
2.写了处理地铁数据的代码,代码在http://blog.csdn.net/u010398018/article/details/26696493, 将每个card转换成一行,方便数据处理
3.继续学习lda, 为了读懂lda的代码