关于搜索聊天记录

奶酪(524300045) 16:33:15 
语言都是一样,思想最重要
andy(40508730) 16:33:27
伟大的小白(439297317) 16:31:16
各种语言都用 不是说 让做刷马桶的去烧饭

你刷马桶要用马桶刷
你烧饭要用烧饭的
andy(40508730) 16:33:36
主要思想是完成工作
0.0(237667802) 16:33:38
思想这东西,太抽象了
天上虹(175535850) 16:33:42
linux下c/c++推荐基本书吧,
罗成(409661706) 16:33:45
语言太杂了 真不好···奔波于语法的学习

伟大的小白(439297317) 16:34:06
思想.. 对你说赫赫 你对c来个闭包思想看看
低调(313316432) 16:34:07
语法还真不是重点
西电-hadoop(715691357) 16:34:12
恩 最关键的 你得能上网 能google 能百度 能csdn 能加hadoop技术交流群
伟大的小白(439297317) 16:34:20
你对 java来个指针思想看看
天上虹(175535850) 16:34:30
更重要的是没事了能上上防御塔
伟大的小白(439297317) 16:34:29
思想这东西 你忽悠忽悠刚毕业的还差不多
低调(313316432) 16:34:31
对各种库啊 api啊什么的 记得多
天上虹(175535850) 16:34:43
大家看人人小站没 摧毁了一座防御塔
0.0(237667802) 16:34:58
别再谈思想了,谈不起
罗成(409661706) 16:35:05
最合适就是最好的吧··

0.0(237667802) 16:35:49
最多谈谈架构
西电-hadoop(715691357) 16:36:24
有个问题放在那里 你就赶紧想个法子解决了 就行了
天上虹(175535850) 16:36:24
没有哪种思想能适合每一个公司的业务的
罗成(409661706) 16:36:47
老板就别想给1份的工资就让人做2份工作的事···招的是JAVA程序员 就别逼人家搞C的项目···业余时间帮你用C做个开源消息队列还行
天上虹(175535850) 16:37:34
我以前说想去搞搞c的。。。没想到真想起我了。。。
0.0(237667802) 16:37:50
那就搞呗
0.0(237667802) 16:38:07
把自己卖给了老板,不搞,人家不给你饭吃
天上虹(175535850) 16:38:17
加薪搞不搞c
罗成(409661706) 16:39:01
中国就是项目搞得太急躁··没时间重构···
不能精雕细琢
0.0(237667802) 16:39:45
没有品质优良的项目,哪来重构的基础
西电-hadoop(715691357) 16:40:04
都啥时代了 谁还有心思搞绣花针 能搞出来 卖出去 能用就行了 反正用的人也不知道咋回事
西电-hadoop(715691357) 16:40:08
哈哈
天上虹(175535850) 16:40:18
话说中国干什么事情都说要”又快又好“,上至天朝下至百姓
伟大的小白(439297317) 16:40:25
重构了你的代码 谁来重构我的钱包
0.0(237667802) 16:40:36
不必抱怨那么多
海风(78441391) 16:46:51
问大家一个问题,有没有碰到
只能Map,不能Reduce的情况
Reduce=0% 卡这了
nknk(290377570) 16:48:23
你用combine了吗?
海风(78441391) 16:53:25
在hive命令行运行的
小Q(178960751) 18:14:29
连鸿蒙国际这样的烂东西都能上人民日报.汗!
小Q(178960751) 18:15:07

kwee(836232886) 18:15:34
娱乐新闻嘛日期:2011/11/24
lykke.lm(715356603) 9:15:11
org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException: failed to create file /user/suse/tik/segments/20111123175211/content/part-00003/data for DFSClient_attempt_201111220922_0412_r_000003_1 on client 192.168.1.15 because current leaseholder is trying to recreate file.
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFileInternal(FSNamesystem.java:1045)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFile(FSNamesystem.java:981)
at org.apache.hadoop.hdfs.server.namenode.NameNode.create(NameNode.java:377)
at sun.reflect.GeneratedMethodAccessor9.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:508)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:959)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:955)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:953)

请问谁遇到过这种错误
lykke.lm(715356603) 9:15:24
运行几个小时之后就报这个错误
332106123(332106123) 9:16:47
好像是权限问题
lykke.lm(715356603) 9:16:53
不是
lykke.lm(715356603) 9:17:02
要是权限问题的话 任务根本运行不起来
lykke.lm(715356603) 9:17:09
我这个是运行了 10几个小时的时候报的
开心延年-alipay<myn@163.com> 10:13:41
目标:
让单机版的lucene能够支持十亿级别索引的查询
索引更改点
1. 索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题)
2. Term压缩方式由原先,存储上一条记录的差异,存储关键点的差异(这样会照成压缩比降低,但是二分法必须这样做)
3.如果索引二分查找文档差异<128则,保留原先链表顺序查找,调用scan方法(这样做尽管读的次数增多,但考虑磁盘的物理特点,结合文件缓冲区,速度会比不断的seek快,物理硬盘适合读取连续的数据)(深入阅读缓冲区源码后,发现lucene对seek有优化,这步优化多余)
4. 由于norms同样非常消耗内存,这里创建索引的时候禁用norms,待以后改进此处


下表为对100W~10亿条md5值进行创建索引以及查询的情况
读的时间为查询10W条md5的时间,单位毫秒
写为创建完整索引的时间,单位为毫秒。



lykke.lm(715356603) 10:15:34
lucene 搜索 85.2 g的索引文件要多久
lykke.lm(715356603) 10:15:54
5 秒多?
xiaolong(312210901) 10:16:28
什么需求需要在单板机上做索引呢
(来自手机QQ: http://mobile.qq.com/v/ )
风车车(54343885) 10:16:38
这个好高级呀
开心延年-alipay<myn@163.com> 10:16:45
50毫秒
lykke.lm(715356603) 10:16:50
不可能吧
开心延年-alipay<myn@163.com> 10:16:57
修改了索引啦
lykke.lm(715356603) 10:17:01
85,2 g 50毫秒
lykke.lm(715356603) 10:17:12
你怎么修改的呢》
bruce_yang(782506462) 10:17:13
此代码只应天上有,人间哪得几回看
lykke.lm(715356603) 10:17:14
能说说么
开心延年-alipay<myn@163.com> 10:17:17
二分法查找 性能还是不错的
lykke.lm(715356603) 10:17:30
和查找没关系 难道你不用lucene 检索么?》

风车车(54343885) 10:17:38
不是把所有的索引都加载到内存中么
开心延年-alipay<myn@163.com> 10:17:46
lucene的索引结构改了
开心延年-alipay<myn@163.com> 10:18:00
全加到内存了 肯定达不到亿的级别


开心延年-alipay<myn@163.com> 10:26:05
只改动了这几个类
lykke.lm(715356603) 10:26:25
发源码吧 开心
伟大的小白(439297317) 10:26:34
跳跃表的性能 > 二分法吧
kelo_北京(13581754) 10:26:41
是呀,开心
云 - 华(46249327) 10:26:50
单机 lucene能够支持十亿级别索引的查询
lykke.lm(715356603) 10:27:05


我也觉得不可能
开心延年-alipay<myn@163.com> 10:27:18
代码给你 自己测试下就知道啦
bruce_yang(782506462) 10:27:23
改了建立索引的 java代码?
lykke.lm(715356603) 10:27:23
我现在的索引大约10个g 单机 根本不行
伟大的小白(439297317) 10:27:34
难 追求速度 需要内存全加载
bruce_yang(782506462) 10:27:42
10G 多少条数据啊
bruce_yang(782506462) 10:27:44
lm
伟大的小白(439297317) 10:27:46
那多坑跌阿
bruce_yang(782506462) 10:27:47
luykke
lykke.lm(715356603) 10:27:55
我那个 是网页
翟光亚(304428768) 10:28:01
索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题)
这个会占用多大内存?
翟光亚(304428768) 10:28:09
感觉没有必要这样的
伟大的小白(439297317) 10:28:30
我一直没搞明白
伟大的小白(439297317) 10:28:41
跳跃表就是为了节约内存设计的
lykke.lm(715356603) 10:28:52
单机可以查10g的搜索并且速度上可以改进的一点就是 将10g的索引 分开目录存储
lykke.lm(715356603) 10:28:59
用MulitSearch
伟大的小白(439297317) 10:29:01
怎么二分法反而内存小 。。。。?why?
伟大的小白(439297317) 10:29:08
ss
开心延年-alipay<myn@163.com> 10:29:09
13581754@qq.com;670906880@qq.com;251547518@qq.com;yangfuchao2010@gmail.com;
开心延年-alipay<myn@163.com> 10:29:14
文件二分法啊
开心延年-alipay<myn@163.com> 10:29:18
文件是定长的
lykke.lm(715356603) 10:29:21
715356603@qq,com
lykke.lm(715356603) 10:29:33
g给我发啊 哥们
kwee(836232886) 10:29:52
ikweesung@gmail.com
越测越开心(19730953) 10:29:53
还有panluhai@gmail.com 支持下阿里兄弟
kelo_北京(13581754) 10:30:02
发了呀,多谢,我正在研究分布式搜索这块,要是一台机能再上个2亿,那可是好事
332106123(332106123) 10:30:20
332106123@qq.com
bruce_yang(782506462) 10:30:46
kelo 你眼睛分布式?
在路上(386728737) 10:30:47
同求,386728737@qq.com,
bruce_yang(782506462) 10:30:48
研究
bruce_yang(782506462) 10:30:52
单机 ?
bruce_yang(782506462) 10:30:56
还搞啥分布式
开心延年-alipay<myn@163.com> 10:31:01
我业余时间搞着玩的哈 就修改了几天
bruce_yang(782506462) 10:31:01
知道sensei没
bruce_yang(782506462) 10:31:16
正需要做搜索呢
bruce_yang(782506462) 10:31:20
你那个不是会bug吧?
开心延年-alipay<myn@163.com> 10:31:35
你测试下
开心延年-alipay<myn@163.com> 10:31:45
验证下结果是否正确就知道了
开心延年-alipay<myn@163.com> 10:31:56
邮件中我给出了测试代码
在路上(386728737) 10:32:25
强烈建议开心把源码共享到群
kelo_北京(13581754) 10:32:39
是呀
开心延年-alipay<myn@163.com> 10:33:11
都发给大家了
风(51263) 10:33:50
squallzhong@gmail.com,我也要一份
广州-ZBIRD(258987928) 10:34:56
zbird.6208@gmail.com
广州-ZBIRD(258987928) 10:35:07

在路上(386728737) 10:35:59
开心,都改了哪些类?
开心延年-alipay<myn@163.com> 10:36:12

在路上(386728737) 10:36:28
能否兼容lucene3.3~3.4版本?
开心延年-alipay<myn@163.com> 10:36:40
TermInfosReader与TermInfosWriter
开心延年-alipay<myn@163.com> 10:36:46
肯定不兼容了
开心延年-alipay<myn@163.com> 10:36:51
索引都变了
bruce_yang(782506462) 10:36:51
找不到啊
开心延年-alipay<myn@163.com> 10:36:56
你以为我是作者啊
bruce_yang(782506462) 10:36:57
叫啥名字
lykke.lm(715356603) 10:37:06
呵呵


日期:2011/11/24
开心延年-alipay<myn@163.com> 10:37:07
你邮箱多少

bruce_yang(782506462) 10:37:14
yangfuchao2010@gmail.com
bruce_yang(782506462) 10:37:28
不兼容?
bruce_yang(782506462) 10:37:41

kwee(836232886) 10:37:43
ikweesung@gmail.com
开心延年-alipay<myn@163.com> 10:37:47
就三天晚上 还兼容啊 呵呵
在路上(386728737) 10:38:14
我的意思是说,代码能否工作在3.4下,索引重建
bruce_yang(782506462) 10:38:30
北京一家牛逼个欧诺公司
bruce_yang(782506462) 10:38:33
公司
bruce_yang(782506462) 10:38:36
又要不去的没
bruce_yang(782506462) 10:38:42
乐荐网络(www.joyrec.com)
开心延年-alipay<myn@163.com> 10:40:44
没测试过呀
bruce_yang(782506462) 10:42:41
还是没收到呢
bruce_yang(782506462) 10:42:42
开心
开心延年-alipay<myn@163.com> 10:43:33
你的邮箱不让发吧
高调-失业中(13574798) 10:43:33
群共享源码
bruce_yang(782506462) 10:43:46
lucene2000@163.com
bruce_yang(782506462) 10:43:48
这个吧
kwee(836232886) 10:44:00
ikweesung@163.com.
bruce_yang(782506462) 10:46:23
收到了 tks
高调-失业中(13574798) 10:46:30
13574798@qq.com
kwee(836232886) 10:46:53
谢谢 收到。
伟大的小白(439297317) 10:47:03
变那么多人研究luncene了?
开心延年-alipay<myn@163.com> 10:47:12
空间不足 无法上传 汗
高调-失业中(13574798) 10:47:35
上传到零时空间
bruce_yang(782506462) 10:48:16
lucene4 听说改动很大
kelo_北京(13581754) 10:48:25
邮件收到,忙这阵,好好研究一下,怎样在单机上多上个几亿数据
bruce_yang(782506462) 10:48:26
性能提升 非常大
bruce_yang(782506462) 10:48:41
kelo。北京
开心延年-alipay<myn@163.com> 10:48:43
lucene4 都出来啦
开心延年-alipay<myn@163.com> 10:48:47
改动了啥呀
bruce_yang(782506462) 10:48:47
你现在数据多少
bruce_yang(782506462) 10:48:57
lucene4 已经 测试了
bruce_yang(782506462) 10:48:58
开始
bruce_yang(782506462) 10:49:08
算法改动很大
伟大的小白(439297317) 10:50:30
lucene4把api接口都换了
伟大的小白(439297317) 10:50:41
实现策略也是
伟大的小白(439297317) 10:50:48
基本不能过度
kelo_北京(13581754) 10:51:16
没看到呀
kelo_北京(13581754) 10:51:25
看看svn里头的
kelo_北京(13581754) 10:51:48
呵呵,自玩的
清澈高远(305412982) 10:51:55
lucene更新很快
bruce_yang(782506462) 10:52:19

bruce_yang(782506462) 10:52:27
http://paris8.org/a/bbs/viewthread.php?tid=6098
伟大的小白(439297317) 10:53:37
真心累啊 我在看osgi md 发现唯一的文档竟然和现在版本差距那么多 才多久阿
bruce_yang(782506462) 10:53:45
http://ostatic.com/blog/guest-post-under-the-hood-in-apache-lucene-4-0
bruce_yang(782506462) 10:53:47
原文
bruce_yang(782506462) 10:54:31
哪位研究过sensei
开心延年-alipay<myn@163.com> 10:55:10
不行了 得干活了 如果还有人想要源码 发邮件给myn@163.com 我定期回复
伟大的小白(439297317) 10:55:11
上次也是 去年弄得cas 今年发现版本更新
bruce_yang(782506462) 10:55:40
搞这么大 更新太快了
bruce_yang(782506462) 10:55:52
lucene3 变化很大
bruce_yang(782506462) 10:55:59
现在4也很大
广州-ZBIRD(258987928) 10:56:17
谁转发一份给偶。呵呵。谢谢
伟大的小白(439297317) 10:56:41
lucene2 -> 3 不兼容 -> 4 不一定兼容
bruce_yang(782506462) 10:58:17
linkedin 公司的分布式搜索
bruce_yang(782506462) 10:58:23
哪位研究过
源远流长(117405390) 10:58:30
zoie?
bruce_yang(782506462) 10:58:34
不是
bruce_yang(782506462) 10:58:38
sensei
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值