web数据抽取
云聪
喜欢简洁的抽象,也着迷神奇的细节,我担心自己因为过于偏向抽象而变得肤浅,也害怕自己因为太过深入细节而迷失,这让我很痛苦,但是我不会放弃挣扎,因为我相信挣扎的过程就是成长。
展开
-
精确提取新闻内容
以前在《数学之美》的“余弦定理和新闻的分类”一文中看到,2002年夏天,Google推出了自己的新闻服务,而这些内容来源于对其它新闻网站内容的抓取、整理和分类,而构建这个新闻网站的关键技术是新闻的自动分类。我相信了作者,认真学习了书中介绍的新闻自动分类技术:利用余弦定理计算新闻相似度的层次聚类和利用奇异值分解的聚类。之后,我就觉得自己掌握了自动构建新闻网站的绝技。然而,直到最近,我才如梦初醒,原创 2015-12-26 14:53:21 · 4133 阅读 · 0 评论 -
从字符串编辑距离到字符串对齐
(一)字符串编辑距离字符串编辑距离,也称莱文斯坦距离,它是指把一个字符串变为另一个字符串需要的最小操作步数,每一步可以在“一个字符串”上做以下三种操作之一:(1)插入一个字符;(2)删除一个字符;(3)修改一个字符。计算编辑距离的常见方法是动态规划,思路是这样的:(1)首先找到动态规划里的状态。我们可以计算word1(第一个字符串)的前i个字符组成得子字符串到word2原创 2015-12-06 22:15:10 · 3336 阅读 · 0 评论