自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

原创 文档过滤

1、早期的过滤器早期的都是基于规则的分类器,使用事先设计好的一组规则,用于指明某条信息属于垃圾信息。典型的规则有: -英文大写字母的过度使用 -与医药学相关的单词 -过于花哨的HTML用色等2、智能分类器a. 特征提取将单词作为文档的特征,其假设:某些单词相对而言更会出现在垃圾信息中。不过特征未必是一个个单词,他们也可以是词组或者短语,或者任何可以归为文档中缺失或者不存在的其他东西。 如何选

2017-11-25 19:52:40 304

原创 优化

1、成本函数 成本函数是用优化算法解决问题的关键它通常最难确定。任何优化算法的目标就是要寻找一组能够使成本函数的返回结果达到最小化的输入,,因此成本函数需要返回一个值用以表示方案的好坏。 2、随机搜索 从 输入集中随机选取一部分,然后确定成本最小的输入,得到的可能是较小值,不是最小值,该算法不是一种非常好的优化算法,但简单容易,可以作为评估其他算法优劣的基线。 3、爬山法 较低成本值所对应

2017-11-22 18:06:45 342

原创 YARN

Apache YARN(Yet Another Resource Negotiator)是Hadoop的集群资源管理系统,YARN提供请求和使用集群资源的API。 1、YARN运行机制 YARN通过两类长期运行的守护进程提供自己的核心服务:管理集群上资源使用的资源管理器(resource manager)、运行在集群中所有节点上且能够启动和监控容器的节点管理器(node manager)。容

2017-11-21 15:20:12 328

原创 MapReduce

Hadoop MapReduce is a software framework for easily writing applications which process vast amounts of data (multi-terabyte data-sets) in-parallel on large clusters (thousands of nodes) of commodity ha

2017-11-17 21:56:06 138

原创 搜索与排名

一、搜索 1、爬虫 一般爬虫将网络视为一张图,对于图而言,常见的算法有两种:深度优先和广度优先 2、分词与索引 爬虫获取的一般都是文档,我们需要进行分词处理,处理之后,搜索引擎要完成从单词到文档的映射,一般采取倒排索引的方法。 二、排名 在获得了与查询条件相匹配的网页之后,排名是不可缺少的。 1、基于内容的排名 单词频度:一般而言,目标单词在文档中出现的次数越多,则相关性越高。 文

2017-11-09 16:10:29 677

原创 聚类

一、分级聚类 Hierarchical Cluster 分级聚类通过连续不断的将最为相似的群组两两合并,来构造一个群组的层次结构。其中的每个群组都是从单一元素开始,在每次迭代的过程中,都会计算两个群体之间的距离,并将距离最近的两个群组合并。并重复这一过程,直到只剩一个群组。 代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等; 二、划分法 使用这个基本思想的算

2017-11-06 17:42:50 503

原创 推荐

一、推荐算法的分类二、协同过滤以用户为基础(User-based)的协同过滤 用相似统计的方法得到具有相似爱好或者兴趣的相邻用户,所以称之为以用户为基础(User-based)的协同过滤或基于邻居的协同过滤(Neighbor-based Collaborative Filtering)。 方法步骤: 1.收集用户信息 收集可以代表用户兴趣的信息。一般的网站系统使用评分的方式或是给予评价,这种方

2017-11-05 20:19:59 423

写给大家看的设计书(第3版)

关于平面设计的入门书,主要介绍关于颜色、排版、字体等等.

2018-05-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除