seaweedfs中的名词:
master: 存储文件和fid映射关系
volumn:实际存储文件
datacenter: 数据中心
rack: 机架。一个机架属于特定的数据中心,一个数据中心可以包含多个机架。
collection: 一组volume的集合。如果在存储文件的时候没有指定collection,那么使用默认的""

weed-fs提供了若干种replication策略(rack – 机架,一个逻辑上的概念):
000 no replication, just one copy
001 replicate once on the same rack
010 replicate once on a different rack in the same data center
100 replicate once on a different data center
200 replicate twice on two other different data center
110 replicate once on a different rack, and once on a different data center

二,删除文件
向master发起/delete操作,URL参数是fid。
master:
1)对每个fid,根据fid找出它所在的volume的信息(主要是url),然后通过向volume_server的URL的/delete发起删除文件的操作,发起删除的操作由一组goroutine并发执行
2)将删除结果返回给客户端

volume:
1)从该volume的needleMap中删除这个file
2)将空的索引信息(key=id, offset=0, size=0)append到索引文件末尾
2)将空文件的信息append到dat文件末尾

可以看到,volume在删除文件的时候,根本没有动原来的文件,只是在needleMap中将这个文件删除。

三,volume上的碎片回收
两种途径:1)master集群中的leader进程定时(15分钟)做一次回收;2)通过向master发送/vol/vacuum的HTTP请求来回收
回收步骤:
master:
1)对每个Collection中的每个VolumeLayout,每个volumeLayout中的每个volume,通过向相应的volume_server的/admin/vacuum/check发起HTTP请求来批量监测它的是否需要回收,如果需要回收,到2),否则退出
2)将要compact的volume_id的状态变成不可写
3)通过向相应的volume_server的/admin/vacuum/compact发起HTTP请求来让volume_server执行回收操作,如果回收操作成功,到4),否则退出
4)向相应的volume_server的/admin/vacuum/commit发起HTTP请求来提交本次回收操作,得到成功的响应后,将该volume_id的状态变成可写

volume:
1)收到/admin/vacuum/check发过来的监测是否回收的指令后,如果 碎片大小/总大小 < URL参数中的garbageThreshold,则返回false说明不需要回收,否则返回true说明需要回收
2)收到/admin/vacuum/compact发过来的压缩指令后,在本目录下面创建新文件vid.cpd和vid.cpx,分别代表压缩后的数据文件和索引文件,接着扫描原来的vid.dat文件,将仍然使用的数据写入到vid.cpd中,并将索引信息写入到vid.cpx中,返回成功。需要注意的是,在扫描原来的vid.dat文件时,遇到一个文件如果它不在旧的needleMap中,说明这个文件已经被删除了,不会将它写入到新的vid.cpd文件中。
3)收到/admin/vacuum/commit发过来的提交压缩指令后,用vip.cpd覆盖vip.dat,vid.cpx覆盖vip.idx,接着用vid.cpx中的内容更新内存中该volume的needleMap

 

一致性:
在分布式系统中,“一致性”是永恒的难题。weed-fs支持replication,其多副本的数据一致性需要保证。
weed-fs理论上采用了是一种“强一致性”的策略,即:
weedfs的replication的设计原则是由接受上传的volume server 来做数据复制。
上传文件时,会在本地写完后,通过master获取副本的其他volume server,然后本机发起向其他volume serer写副本文件的操作。
删除文件时,会在本地删除完成后,通过master获取副本的其他volume server,然后本机向其他volume server发起删除副本的操作。

数据迁移

weed-fs提供数据迁移命令


上传流程
1,向http://master/dir/assign发送HTTP请求,获取该文件的fid,url,publicUrl等信息
2,批量上传文件时,第一个文件fid是fid,其余的id是fid_1, fid_2, fid_3...
3,随后向http://master/fid发起POST请求,将文件上传至master。

#测试上传图片

#curl -X POST http://localhost:9333/dir/assign

#curl -X POST -F file=../i.jpg 地址

seaweedfs简单使用

记录一下日常使用,比较重要的api。

1.到处指定volume中的文件名,在master节点下执行获取seaweedfs指定volumeid下的文件名称:
weed export -dir=/data/data/weed_volume_vaccum -volumeId=116

2.seaweedfs上的数据执行delete之后不会直接清除,而是从needlemap文件中删除,需要通过紧缩操作清除碎片;指定master节点ip和port执行

volume紧缩:
curl "http://masterserver:9333/vol/vacuum"
curl "http://masterserver:9333/vol/vacuum?garbageThreshold=0.4"


3.获取volume的状态,指定volume的server ip和port获取volume状态:
curl "http://volumeserver:8089/status?pretty=y"


4.在指定的volume server下挂载或卸载volume,在进行volume迁移时很有效:
curl "http://volumeserver:8080/admin/volume/unmount?volume=volumeId"


5.和2的操作一样,想master节点发出的vacuum操作最后会向各个volume server发送check、compact和commit请求;这里只是指定volume server进行vacuum操作。
向指定volumeserver发check/compact/commit请求
curl "http://volumeserver:8082/admin/vacuum/check?volume=50&;garbageThreshold=0.0"
curl "http://volumeserver:8082/admin/vacuum/compact?volume=50"
curl "http://volumeserver:8082/admin/vacuum/commit?volume=50"


这里的garbageThreshold参数是指当volume的磁盘碎片率大于该指之后是否执行vacuum进行碎片回收。至于紧缩的详细过程某blog聊得很清楚,但是紧缩的时候也是非常有用,感谢!

本文参考http://www.cnblogs.com/cobbliu/p/4972603.htm

https://www.aliyun.com/jiaocheng/123342.html

Weed-FS 接口 master、volume 服务接口

http://it.51xw.net/opensource/1000n0.html