- 博客(8)
- 资源 (1)
- 收藏
- 关注
原创 数据分析工作的一点改进
最近老是用python要对各种csv做各种统计,工作不可谓不繁琐啊,通常在一次csv扫描中完成几种到几十种统计,因此重复代码多、可读性也差。应该对不同统计做一些原型封装,以动态语言的灵活性不需要做代码生成器,只需要写不同的函数完成不同的功能即可,这样代码大大减少,可读性维护性都很好,唯一的问题会是对不同的工作都需要单独扫描一遍文件。如果对性能有要求,要把不同的统计放在一遍扫描中,又要避免每
2013-08-30 07:50:42
1307
原创 对Primary-backup分布式数据库分布式一致性的猜想
昨天读了paxos算法,心里对分布式一致性有一些想法:如果是我,应该怎么实现数据库集群的一致性呢?paxos算法本身并没有提到其应用,所以实际使用情况应该较复杂。而我平时接触到使用分布式一致性算法的就是mongodb replicaset。它和zookeeper相似,只是它的data model不只包括集群配置,还有其庞大复杂的数据库。paxos为何需要两阶段?也许是在learn的时候方便
2013-08-24 14:20:28
2024
原创 paxos算法
之前看wiki上paxos算法,花了一些时间却感觉讲得不是很理解。吸取教训,直接读这篇Paxos Made Simple(http://www.cs.utexas.edu/users/lorenzo/corsi/cs380d/past/03F/notes/paxos-simple.pdf),作者也是该算法发明人Lamport。proposal从发出到被最终选中分为两个阶段:Phase 1:
2013-08-23 23:33:34
1641
原创 Zookeeper论文笔记
论文在这里:ZooKeeper: wait-free coordination for internet-scale systems (http://www.usenix.org/event/usenix10/tech/full_papers/Hunt.pdf)今天看下来(还没看完),感觉上比较理解它的设计了,当然其中最关键的zab协议(基于master的原子广播)还要看看。做一些记录:
2013-08-21 23:18:54
2961
原创 Packet Sniffer Code in C using sockets
接idc通知,按工信部和公安部要求,要对网站用户上下线时间ip用户名做记录,至少保留一年(什么乱七八糟啊)。参考了以下code,做了一个http sniffer,把http header全部记录下来,比较简单,截取数据直接是:sock_raw = socket(AF_INET , SOCK_RAW , IPPROTO_TCP);while(1){data_size = recv
2013-08-21 20:22:10
1222
原创 nginx access log logrotate配置
/home/deployuser/deploy/nginx/temp/logs/home.access.log { size 100M rotate 100 nocompress daily missingok notifempty sharedscripts postrotate [ ! -f /home/deployuser/depl
2013-08-12 17:01:09
1973
原创 Macbook Pro上装Linux的牢骚
原来带出去开会的一台Mac(Macbook pro,Mid 2012)硬盘坏了,买了一块新硬盘,开始是准备装Ubuntu。结果不管是Ubuntu启动盘还是USB(而几乎其他版本的Macbook pro都可以安装一些版本的Ubuntu)都不能安装,中间还换着做不同版本的启动盘。换了Fedora19装上了。苦苦地等待无线驱动好了,google了一堆都是安装wl模块的,装上了没效果,中间还各种编
2013-08-07 21:55:57
6515
原创 一个自动代理的php实现
Firefox中支持自动检测代理,其原理是访问http://wpad/wpad.pac,获取pac脚本(因此dns中必需设置wpad地址)。因此我们的自动代理服务器并非代理服务器,而是serve wpad.pac的wpad。pac是一个js脚本,有一套完整的标准,提高包括FindProxyForUrl 在内的很多接口函数,判断走代理还是直接访问。以下这个实现只使用到FindProxyF
2013-08-07 21:47:25
6454
Scons User Guide 2.01
2011-05-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅