语义技术,无非分词、词性标注、分类。如果有几个开源的东西一拼接就行了。如果等你打算做到百度新闻的领域,就会意识到算法是核心竞争力。比如这次改版后的百度新闻,那就必须揉合多种算法,而且必须从本质做大的提升。姑且不说强度很高的文本相似性算法,就说分类,必须提升现在常见的分类算法。因为它分类分得非常细。这时候,必须自己研发。单纯就百度新闻的互联网频道,就好几个子类。十几个大频道,每个都有各种各样很细小的分类,语言特征很模糊。我问过他们,这都是机器自动的,几乎接近于传统媒体网站一大堆编辑的水平了,语义能到这种可商用的强度就难了。算法不是一朝一夕能偷师的。所以,技术门槛还是比较高的。阅读全文>
发表于 @ 2008年02月29日 02:33:00|评论(loading...)|编辑