黑马程序员------关于分布式

------<a href="http://www.itheima.com" target="blank">Java培训、Android培训、iOS培训、.Net培训</a>、期待与您交流! -------

 

 

近日,有关存储系统选型的问题在微信群里讨论的火热,CSDN在这里稍微将各位专家的问答总结了一下,分享给大家。


文章内容来源大数据基础设施微信群,参与讨论的专家有中国科学院软件研究所工程师,C3核心成员李明宇,国防科学技术大学教授,CCF大数据专家委员会委员李东升,云人科技联合创始人兼CEO吴朱华,Memblaze技术顾问刘爱贵等等。


以下是问答实录:


Q:有一个场景:每天有近百GB数据增加,数据内容有WORD文档和图像等多种类型。用什么存储或文件系统比较合适?


A: HDFS、HBase、Hive不太适合存文档、图片大小的文件,HDFS适用于存大文件,后两者适用于数据库场景,每天近百GB的文档、图像,那只有用SWIFT了。


Q:SWIFT与Ceph、GlusterFS、MongoDB/GridFS之间的比较呢?


A:SWIFT是专为这种场景设计的,性能可以调节。


Q:如果图像比较大的情况,一张图接近GB时,哪个合适?


A:我仍然推荐用SWIFT,SWIFT官方认为对几个G的支持都没有问题,但是我认为处理几个G的大文件性能上可能会比HDFS差,因为没有条带化。但是考虑到文档、图片类型存储,你会遇到很多几兆、几十兆的,这些文件的存储,HDFS就不如SWIFT了。从适用范围的角度来看,咱们这个场景里还是首选SWIFT。


Q:GlusterFS它的优点在哪里,在文件数量太大时Gluster会出现性能问题正常么?


A:GlusterFS,它的优点在于如果你需要使用POSIX接口,那GlusterFS是一个很好的选择,但是Gluster在文件数量、目录数量太大的情况下会出现性能衰减,这是文件系统本身的特点决定的,不论是哪种POSIX兼容的文件系统,都存在类似的问题。


Q:SWIFT、Ceph、GlusterFS、MongoDB那个更好?


A:关于SWIFT、Ceph、GlusterFS、MongoDB之间的比较,没有孰优孰劣,只有是不是适合。MongoDB是NoSQL数据库,和HBase是同一类,但是和其他几个分布式存储显然不是同一类的,不适合用于此类场景。


Q:Ceph,SWIFT分别适合什么样的情况?


A:如果你只需要用块存储,那当然是Ceph,如果只需要用对象存储,那当然是SWIFT。各自有各自擅长的地方,不过现在因为Ceph也支持对象存储,SWIFT和Ceph又是OpenStack社区非常频繁提到的两种存储形式,所以,有很多人会把SWIFT和Ceph在一起比较。


如果只要用对象存储,就选择SWIFT;如果只要用块存储,那就Ceph;即要用对象存储又要用块存储的场合,是用SWIFT还是Ceph呢?我们一般是这样推荐的:


1.如果节点数量很大,推荐用Ceph单独做块,用SWIFT做对象存储,因为在节点数量较大时,Ceph的维护成本比SWIFT要高得多,大多数场景实际应用的时候会发现,大部分数据都可以放到对象存储上(这一点如果有疑问,欢迎随时讨论);


2.如果节点数量少,那就用Ceph统一搞定,因为一般认为生产环境中最小的分布式存储应当有五个节点,所以,如果节点数量少于十个或者刚到十来个,那构建两个分布式存储显然是不理想的(考虑到空间划分问题);


3.如果团队里有牛人能轻松解决Ceph大规模部署问题,那就果断用Ceph;


4.如果希望对象存储能够和OpenStack其他项目无缝结合,如果希望实现多租户,果断用SWIFT来实现对象存储。


Q:对象存储的本质是什么?


A:对象存储本身有两个概念,一种是九几年提出的,针对NAS性能问题提出的一种新的存储架构,其实Gluster也是那种对象存储。另一种是06年亚马逊推出S3以后逐渐被人接受的对象存储,特点是RESTful接口和扁平的数据组织形式。我们说的CEPH和SWIFT提供对象存储,指的是后者,但是CEPH的底层RADOS,又是前一类对象存储。


Q:如果现在有一堆文件要存,如何选择是用对象还是用文件系统呢?


A:所谓文件系统的本质是POSIX接口,“对象”这个名词是做对象存储的人为了把自己做的东西和文件系统区分开而用的术语,把存在对象存储里的文件叫做“对象”,所以选择文件系统还是对象存储,跟你把这堆数据称作对象还是文件并没有直接关系,而是要看你是需要POSIX还是RESTful HTTP接口,是需要目录结构还是适用扁平数据管理结构。


GlusterFS分布式文件系统,给大家参考。http://vdisk.weibo.com/s/HPecIjqX8sc


SWIFT分布式对象存储,给大家参考。http://www.ibm.com/developerworks/cn/cloud/library/1411_limy_openstackSWIFT/


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1.2. 结构化一下 1.3. 图形化一下 1.3.1. 运营商后台 1.3.2. 商家后台 1.3.3. 网页前台 参考京东 2. 技术选型 前端:angularJS + Bootstrap 后台:SSM( springmvc+spring+mybatis) 数据库:mysql,使用mycat读写分离 开发模式:SOA 服务中间件:dubbox,需要和zookeeper配合使用 注册中心:zookeeper 消息中间件:Activemq,使用spring-jms 负载均衡:nginx 搜索:solr集群(solrCloud),配合zookeeper搭建, 使用spring-data-solor 缓存:redis集群,使用spring-data-redis 图片存储:fastDFS集群 网页静态化:freemarker 单点登录:cas 权限管理:SpringSecurity, 跨域:cros 支付:微信扫描 短信验证:阿里大于 密码加密:BCrypt 富文本:KindEditor 事务:声明式事务 任务调度:spring task 所有的技术,都可能涉及到为什么用?怎么用?用的过程中有什么问题? 3. 框架搭建 3.1. 前端 理解baseControler.js、base.js、base_pagination.js,以及每一个xxxController.js里面都公共的做了些什么。 baseControler.js 分页配置 列表刷新 处理checkBox勾选 xxxControler.js 自动生成增删改查 base_pagination.js 带分页 base.js 不带分页 3.2. dao 使用了mybatis逆向工程 4. 模块开发 逐个模块开发就好 4.1. 学会评估模块难不难 一个模块难不难从几方面考虑。 涉及几张表? 1,2张表的操作还是没有什么难度的。 涉及哪些功能? 增删改查,批量删除。 前端展示? 分页列表、树形、面包屑、三级联动、内容格式化。 4.2. 举几个简单模块的例子 4.2.1. 品牌管理 单表 分页、新增、删除、修改 4.2.2. 规格管理 2张表 分页、新增、删除、修改、显示优化(显示列表内容的一部分) 4.2.3. 模板管理 2张表 分页、新增、删除、修改、显示优化(显示列表内容的一部分) 4.2.4. 分类管理 单表 4.2.5. 商家审核 单表 4.3. 举一个复杂模块 4.3.1. 商品新增 需要插入3张表,tb_goods、tb_goods_desc、tb_item 前端:三级联动、富文本、图片上传、动态生成内容 4.3.2. 商品修改 需要从3张表获取数据,然后进行回显。 4.4. 典型模块设计 4.4.1. 管理后台 商品新增、商品修改 4.4.2. 前台页面 搜索模块实现 购物车模块实现 支付模块实现 秒杀模块实现 5. 开发过程中问题&优化 1.1. 登录 单点登录怎么实现 session怎么共享 1.2. 缓存 哪些场景需要用到redis redis存储格式的选择 怎么提高redis缓存利用率 缓存如何同步 1.3. 图片上传 图片怎么存储 图片怎么上传 1.4. 搜索 ​ 怎么实现 数据量大、 并发量高的搜索 怎么分词 1.5. 消息通知 ​ 哪些情况用到activeMq 1.6. 优化 seo怎么优化 怎么加快访问速度 1.7. 秒杀 ​ 怎么处理高并发 ​ 秒杀过程中怎么控制库存
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值