开源大数据索引项目hive-solr

27 篇文章 1 订阅
[size=medium]
github地址:[url]https://github.com/qindongliang/hive-solr[/url]
欢迎大家fork和使用

关于这个项目的介绍,请参考散仙前面的文章:
[url]http://qindongliang.iteye.com/blog/2283862[/url]

最新更新:
(1)添加了对solrcloud集群的支持
(2)修复了在反序列时对于hive中null列和空值的处理bug
(3)优化了在构建索引时对于null值和空值的忽略

一些测试:

数据量:约一千二百万,8个字段,其中一个是大文本,2个是分词字段,索引前数据体积约20G

索引总耗时:约15分钟

索引后体积:每个shard约6G,共约18G

Hive:限制最大并发map数为30个,怕影响Hbase服务,注意使用Hive建完索引后,需要手动commit一次,使内存索引flush到磁盘上

批处理:每个map里面10万数据,批量处理提交一次,不commit,这个值根据情况设定,太大了容易solrcloud容易丢数据,太小了会影响速度

solrcloud集群版本为5.1使用3台机器,每台一个shard,无副本,jetty的内存给了10G

CPU:24核,注意大文本分词字段非常耗cpu

solr的jvm参数调整:
(1) 调大 SurvivorRatio 区占比,降低survivor区的内存空间
(2)调小NewRatio区占比,增大新生代的内存空间
(3)调大永久代MaxPermSize内存至256M
(4)调整MaxTenuringThreshold=0 ,使大对象加速进入老年代,避免在survivor和eden区来回拷贝,使用YGC次数变多
其他参数还是默认配置

solr服务端配置:
(1)关闭自动commit
(2)设置ramBufferSizeMB为1000 ,约等1G
(3)设置maxBufferedDocs等-1,禁用maxBufferDocs
(4)设置mergeFactor为100

[/size]

[b][color=green][size=large]
有什么问题可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。
技术债不能欠,健康债更不能欠, 求道之路,我们同行。
[/size][/color][/b]
[img]http://dl2.iteye.com/upload/attachment/0104/9948/3214000f-5633-3c17-a3d7-83ebda9aebff.jpg[/img]
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值