Data Mining
千与
系统架构设计,分布式系统,海量数据处理,机器学习。
展开
-
基于语义连贯性实现主题挖掘和分类
约定一下文中使用的一些词的含义:文章:一般来说,一篇文章具有一个标题、一个或多个段落组成,其他的我们暂时不考虑。段落:一篇文章可以根据缩进(有些可能不存在缩进)或回车换行,将文章分成多个段,而每段是由数个句子组成。片段:片段是由一个或者多个段落组成,但是片段最多不能大于一篇文章的全部段落数,我们限定在一篇文章之内。基础概述对于给定的一篇文章,它到底在围绕原创 2011-12-16 20:51:28 · 4153 阅读 · 0 评论 -
网页电话/手机号码识别
识别网页上的电话号码,一个比较容易想到的方法就是,通过预先设计电话号码的正则表达式,对网页文本内容中电话号码进行匹配,抽取出对应的联系方式。然而,这种方法是假定电话号码都是按照比较理想的格式在网页上展示的,自然对于这样的识别精度会很高,但是同时也漏掉了很多电话号码。如果你没有深入分析处理过Web网页数据,你是想象不到互联网上网页的格式到底有多不规范。这里,我们实现一种识别网页上电话号码的方法,原创 2012-06-01 10:31:54 · 10373 阅读 · 2 评论