- 博客(3)
- 资源 (1)
- 收藏
- 关注
原创 Programming Collective Intelligence笔记 - Document Filtering
1.1. Filtering Spam过滤广告的时候,我们第一步就是把文档进行分类,然后就是把文档进行分词,每个词都直接继承文档的分类。这样通过一些初始的训练之后,每个词都会出现在某一个或某几个分类当中。这样我们就得到了某一个词出现在某一个分类当中的概率P(W/C) = W在C中出现的次数/C中包含的文档数,W为词,C是分类。这个算法的一个缺点就是,当我们的初始训练文档比较少的
2008-01-17 10:14:00 1763
原创 Programming Collective Intelligence笔记 - 最优化
1. 最优化最优化要解决的问题是,当我们面对的问题有多种解决方案时(数量级比较大),我们应该通过什么方法来找到最优的方案。 1.1. Cost函数在考虑最优解时,我们首先需要定一个一个Cost函数,他的作用就是把我们的解决方案量化为一个数值。 1.2. 随机算法随机选取N个解决方案,计算他们的Cost值,然后选出最小的一个。
2008-01-07 16:49:00 2039
原创 Programming Collective Intelligence笔记 - Ranking
在搜索时,当我们有多个搜索结果时,我们需要对结果进行排序,这里讲的是如何对结果进行评分,从而进行排序。
2008-01-03 10:14:00 1919
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人