我是如何实现stackoverflow中文版的

一、问题的提出

stackoverflow是全球最大的编程问答网站,每天大约产生5000个以上的编程技术问题讨论,无论是问题、讨论过程还是最后的答案,都表现出很高的质量,但对于习惯于使用中文搜索的开发者来说,存在三大问题:一是网站在国内访问速度较慢,二是中文内容极少,三是不能用中文搜索。作者参与http://opendao.cn社区运营过程中,产生了开发stackoverflow中文版 (https://developer.opendao.cn/)的想法,实现以下功能:

1、与http://stackoverflow.com保持数据同步

2、同步数据过程中将问题、讨论、答案进行同步翻译成中文

3、用中文搜索问题及内容

4、用tag归类问题

5、即将推出APP

二、数据来源

stackoverflow极其开放,网站定期释出全库的备份https://meta.stackoverflow.com/questions/295508/download-stack-overflow-database,从这个备份还原到sqlserver数据库,这样就可以得到大约三个月前的所有数据,近期的数据,可通过https://api.stackexchange.com/的API获取,由于该网站有10000次/天的请求限制,所以将数据分段进行切分,用多台服务器(多个IP)获取数据,写入SQLServer中。一般来说,需要4台服务器,就可追上stackoverflow的新增记录并保持数据同步。

三、翻译工作

由于stackexchange返回的body参数字符串是html类型的字符串,我们使用免费翻译软件翻译时会忽略code、pre、strong标签当中的程序源代码内容,对字符串进行特殊的处理,使用队列queue的方式,将字符串所包含的非翻译的部分以遍历的方式保存在队列当中,对剩余的部分进行翻译,按照队列依次出队的顺序分别插入到翻译结果的标记位当中,翻译的结果写回SQLServer中。

四、搜索实现

为了实现全文搜索, 达到用中文搜索问题的效果,网站用到了ES(elasticsearch)搜索引擎,每天使用Datax定时从SQLServer同步数据到ES。

五、建立网站

参照http://stackexchange.com和一些开源项目,建立了stackoverflow中文版网站,目前还有完善中。

六、开源

做为开源加速网站http://gitclone.com的开发者,作者一直致力于在开源社区的贡献, https://developer.opendao.cn/的技术实现也在github开源,项目源码地址是: taopoppy/stackflowovermirror

发布于 2021-07-09 13:24

Stack Overflow

​赞同 41​​5 条评论

​分享

​喜欢​收藏​申请转载

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值