2014/05/19-2014/05/27周工作日志

05/20

1.解决无法启动spark集群的spark-shell问题

  • 从master节点上复制目录到worker节点上,但是权限有问题。先从master节点切换到root, 然后进入到spark目录,scp所有东西到worker的/home/spark/spark目录上,然后在worker节点上切换到root,然后用mv命令将spark目录移到/opt/目录里,不能用cp,因为用cp复制后的目录会变为root的权限,master节点无法启动root权限的spark程序,用mv则会保持spark权限。

总结:还都是权限问题


2.尝试在集群上跑eigenCentrality程序,但是得到无法找到主机路由器的错误,估计是由于安装hadoop的服务器出现故障,暂且放下。

3.看spark storage模块的源码


05/21

1.今天尝试着写基于TDA里面内容的情感分析的朴素贝叶斯分类器,代码基本上完成。但是由于没有测试,无法判断正确性,下一步是测试程序。

程序的代码: http://blog.csdn.net/u010398018/article/details/26478409


2. map filter

val a = HashMap("a"->(1,0), "b"->(0,0), "c"->(0,1))
a retain {(key,value)=> value._1 != 0 || value._2 != 0}   //保留值不为0的项


3.做了一个测试

classiferPara: (Int, Double, Double) = (3096,0.837532299741602,0.16246770025839793)

val twitt = "thing NYC could do to #Occupy is what they are doing right now. Suppression always  always has the opposite effect"

("NYC", (0,2)) | ("thing", (1,3)) | ("could", (1,1)) | ("#Occupy", (8, 1)) | ("right", (2,4))




05/22

1.学习lda主题模型(未完成),该模型需要的知识有EM算法,拉格朗日极值法,下载了一些资料学习。

2.整理fasting data computing with spark的学习计划


05/23

1.为了将地铁的数据处理成spark适合调用的格式,学习了scala处理xml文件的内容,scala内置了对xml处理的能力,十分好用,但是也存在一些容易令人误会的地方,

特别是当xml的标签换行时,scala会将换行符当成一个元素,这点需要注意。

2.写了处理地铁数据的代码,代码在http://blog.csdn.net/u010398018/article/details/26696493,  将每个card转换成一行,方便数据处理

3.继续学习lda, 为了读懂lda的代码


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值