根据当前测试,目前算法预计将能成功65-70%,中间无需任何人工参与。
测试完成后将视结果是否立项?立项标准是90%,难度不小,要保持准确和速度。
测试语言:php,但是实际开发语言可能会用c#。
数据规模每天增量大约50万,数据保存至少半年,那么数据至少9000万,这将是个很庞大的规模。
虽说爬虫将独立运作,但是我觉得还是需要建立爬虫监控系统,并且参考MapReduce部分设计将性能拉到最大。
搜索应该会采用新版本的solr(估计用得时候会出来),希望这次自己修改的比较少。
je怎么没有回自己的功能....我只好修改下
数据如果要跑的话,增量将是50万的100倍,,, 当然不可能跑这么多.
目前测试结果是80%的准确率, 下周应该还能提升准确率, 完成第一个测试. 如此下去某公司的优势应该不存在了.
做得比较吃力, 但是想想能这个够刺激, 所以写得比较high.
今天边看灾情边看hadoop, 做datanode满适合的. 看了下, 目前solr+hadoop的还没人做, 只听说aol在研究. 不知道是否会开源, 如果没有, 那就要自己整合了, 要么用c++写php的扩展来操作hadoop, 要么就是用python, 当然php操作java来完成也可以.到时候看效率和稳定性把.
目前偏向python, 理由: 我很懒.
测试完成后将视结果是否立项?立项标准是90%,难度不小,要保持准确和速度。
测试语言:php,但是实际开发语言可能会用c#。
数据规模每天增量大约50万,数据保存至少半年,那么数据至少9000万,这将是个很庞大的规模。
虽说爬虫将独立运作,但是我觉得还是需要建立爬虫监控系统,并且参考MapReduce部分设计将性能拉到最大。
搜索应该会采用新版本的solr(估计用得时候会出来),希望这次自己修改的比较少。
je怎么没有回自己的功能....我只好修改下
数据如果要跑的话,增量将是50万的100倍,,, 当然不可能跑这么多.
目前测试结果是80%的准确率, 下周应该还能提升准确率, 完成第一个测试. 如此下去某公司的优势应该不存在了.
做得比较吃力, 但是想想能这个够刺激, 所以写得比较high.
今天边看灾情边看hadoop, 做datanode满适合的. 看了下, 目前solr+hadoop的还没人做, 只听说aol在研究. 不知道是否会开源, 如果没有, 那就要自己整合了, 要么用c++写php的扩展来操作hadoop, 要么就是用python, 当然php操作java来完成也可以.到时候看效率和稳定性把.
目前偏向python, 理由: 我很懒.