自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

技术源于生活

努力学习新技术

  • 博客(3)
  • 资源 (1)
  • 收藏
  • 关注

原创 Programming Collective Intelligence笔记 - Document Filtering

1.1.       Filtering Spam过滤广告的时候,我们第一步就是把文档进行分类,然后就是把文档进行分词,每个词都直接继承文档的分类。这样通过一些初始的训练之后,每个词都会出现在某一个或某几个分类当中。这样我们就得到了某一个词出现在某一个分类当中的概率P(W/C) = W在C中出现的次数/C中包含的文档数,W为词,C是分类。这个算法的一个缺点就是,当我们的初始训练文档比较少的

2008-01-17 10:14:00 1760

原创 Programming Collective Intelligence笔记 - 最优化

1.        最优化最优化要解决的问题是,当我们面对的问题有多种解决方案时(数量级比较大),我们应该通过什么方法来找到最优的方案。 1.1.       Cost函数在考虑最优解时,我们首先需要定一个一个Cost函数,他的作用就是把我们的解决方案量化为一个数值。 1.2.       随机算法随机选取N个解决方案,计算他们的Cost值,然后选出最小的一个。 

2008-01-07 16:49:00 2037

原创 Programming Collective Intelligence笔记 - Ranking

在搜索时,当我们有多个搜索结果时,我们需要对结果进行排序,这里讲的是如何对结果进行评分,从而进行排序。

2008-01-03 10:14:00 1918

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除