开源大数据索引项目hive-solr

最新推荐文章于 2021-05-11 10:13:42 发布

三劫散仙

最新推荐文章于 2021-05-11 10:13:42 发布

阅读量191

点赞数

分类专栏： hive solr 文章标签： solr hive hadoop mapreduce

solr 同时被 2 个专栏收录

63 篇文章 1 订阅

订阅专栏

hive

27 篇文章 1 订阅

订阅专栏

[size=medium]
github地址：[url]https://github.com/qindongliang/hive-solr[/url]
欢迎大家fork和使用

关于这个项目的介绍，请参考散仙前面的文章：
[url]http://qindongliang.iteye.com/blog/2283862[/url]

最新更新：
（1）添加了对solrcloud集群的支持
（2）修复了在反序列时对于hive中null列和空值的处理bug
（3）优化了在构建索引时对于null值和空值的忽略

一些测试：

数据量：约一千二百万，8个字段，其中一个是大文本，2个是分词字段，索引前数据体积约20G

索引总耗时：约15分钟

索引后体积：每个shard约6G，共约18G

Hive：限制最大并发map数为30个，怕影响Hbase服务，注意使用Hive建完索引后，需要手动commit一次，使内存索引flush到磁盘上

批处理：每个map里面10万数据，批量处理提交一次，不commit，这个值根据情况设定，太大了容易solrcloud容易丢数据，太小了会影响速度

solrcloud集群版本为5.1使用3台机器，每台一个shard，无副本，jetty的内存给了10G

CPU：24核，注意大文本分词字段非常耗cpu

solr的jvm参数调整：
（1）调大 SurvivorRatio 区占比，降低survivor区的内存空间
（2）调小NewRatio区占比，增大新生代的内存空间
（3）调大永久代MaxPermSize内存至256M
（4）调整MaxTenuringThreshold=0 ，使大对象加速进入老年代，避免在survivor和eden区来回拷贝，使用YGC次数变多
其他参数还是默认配置

solr服务端配置：
（1）关闭自动commit
（2）设置ramBufferSizeMB为1000 ，约等1G
（3）设置maxBufferedDocs等-1，禁用maxBufferDocs
（4）设置mergeFactor为100

[/size]

[b][color=green][size=large]
有什么问题可以扫码关注微信公众号：我是攻城师(woshigcs)，在后台留言咨询。
技术债不能欠，健康债更不能欠，求道之路，我们同行。
[/size][/color][/b]
[img]http://dl2.iteye.com/upload/attachment/0104/9948/3214000f-5633-3c17-a3d7-83ebda9aebff.jpg[/img]

三劫散仙

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
开源大数据索引项目hive-solr

[size=medium]github地址：[url]https://github.com/qindongliang/hive-solr[/url]欢迎大家fork和使用关于这个项目的介绍，请参考散仙前面的文章：[url]http://qindongliang.iteye.com/blog/2283862[/url]最新更新：（1）添加了对solrcloud集群的支...
复制链接

扫一扫