想写点相关的一系列算是个人一个总结,标题写的有点大,但没关系,如果你是高手,那么可以略过,供参考以此共勉
一,程序部分
1,日志处理
处理方式可以参见”多线程的程序是否真的需要锁?" 这个内容
最常用的日志处理就是模拟 shell 中的tail -f方式进行读文件日志然后进行对应逻辑的处理,比如统计日志,解析日志然后将解析结果转存到其它地方等待下游处理,这个会在后面给出php/c/c++对应的参考代码
2,数据传输(多机情况下数据间的上下游衔接)
(1)我本人常用的就是用gearman方式将上下游数据处理逻辑串起来,
(2)RPC方式实现调用,前段时间用thrift做搜索相关项目采用
(3)其它
3,集群中多机处理的配置等问题
(1) 自已实现协调配置例如同一份配置部署在单机中,其它机器调用这机器提供的服务接口来读取配置
问题(最大的问题是单节点问题,即出现机器问题则不可用),我最早的程序就是用的这个方法,只不过不是单点问题,现在已不用了
(2)zookeeper在具体的项目中如何应用,以实现最基本的数据一致性,这个也会单独针对zookeeper写一下个人体会和程序代码
4,大数据处理时map-reduce, hive, hbase等怎么使用,搞后台开发的,难免要处理大数据,所以mapreduce还是比较常用的,后面也会给出示例代码与所遇到问题时的处理方法