文档过滤

1、早期的过滤器早期的都是基于规则的分类器,使用事先设计好的一组规则,用于指明某条信息属于垃圾信息。典型的规则有: -英文大写字母的过度使用 -与医药学相关的单词 -过于花哨的HTML用色等2、智能分类器a. 特征提取将单词作为文档的特征,其假设:某些单词相对而言更会出现在垃圾信息中。不过特...

2017-11-25 19:52:40

阅读数 101

评论数 0

优化

1、成本函数 成本函数是用优化算法解决问题的关键它通常最难确定。任何优化算法的目标就是要寻找一组能够使成本函数的返回结果达到最小化的输入,,因此成本函数需要返回一个值用以表示方案的好坏。 2、随机搜索 从 输入集中随机选取一部分,然后确定成本最小的输入,得到的可能是较小值,不是最小值,该算法...

2017-11-22 18:06:45

阅读数 67

评论数 0

YARN

Apache YARN(Yet Another Resource Negotiator)是Hadoop的集群资源管理系统,YARN提供请求和使用集群资源的API。 1、YARN运行机制 YARN通过两类长期运行的守护进程提供自己的核心服务:管理集群上资源使用的资源管理器(resource ...

2017-11-21 15:20:12

阅读数 170

评论数 0

MapReduce

Hadoop MapReduce is a software framework for easily writing applications which process vast amounts of data (multi-terabyte data-sets) in-parallel on...

2017-11-17 21:56:06

阅读数 55

评论数 0

搜索与排名

一、搜索 1、爬虫 一般爬虫将网络视为一张图,对于图而言,常见的算法有两种:深度优先和广度优先 2、分词与索引 爬虫获取的一般都是文档,我们需要进行分词处理,处理之后,搜索引擎要完成从单词到文档的映射,一般采取倒排索引的方法。 二、排名 在获得了与查询条件相匹配的网页之后,排名是不可缺...

2017-11-09 16:10:29

阅读数 127

评论数 0

聚类

一、分级聚类 Hierarchical Cluster 分级聚类通过连续不断的将最为相似的群组两两合并,来构造一个群组的层次结构。其中的每个群组都是从单一元素开始,在每次迭代的过程中,都会计算两个群体之间的距离,并将距离最近的两个群组合并。并重复这一过程,直到只剩一个群组。 代...

2017-11-06 17:42:50

阅读数 217

评论数 0

推荐

一、推荐算法的分类二、协同过滤以用户为基础(User-based)的协同过滤 用相似统计的方法得到具有相似爱好或者兴趣的相邻用户,所以称之为以用户为基础(User-based)的协同过滤或基于邻居的协同过滤(Neighbor-based Collaborative Filtering)。 方法步...

2017-11-05 20:19:59

阅读数 182

评论数 0

java内部类

1.为什么使用内部类? 使用内部类最吸引人的原因是:每个内部类都能独立地继承一个(接口的)实现,所以无论外围类是否已经继承了某个(接口的)实现, 对于内部类都没有影响 1.1.使用内部类最大的优点就在于它能够非常好的解决多重继承的问题,使用内部类还能够为我们带来如下特性: (1)、内部类可...

2017-05-08 16:59:45

阅读数 125

评论数 0

java io流基础

个人感悟: 1、流是具有在端与端之间传输数据能力的一类类 2、根据传输数据种类的不同可以分为字节流和字符流,根据传输方向的不同可以分为输入流和输出流,上图 3、转换流可以实现字节流到字符流的转换//字节输出流转为字符输出流 Write out = new OutputStreamWrit...

2017-05-06 22:58:29

阅读数 184

评论数 0

synchronize的使用

1、synchronize可以修饰限定方法或者代码块 2、 (1)当两个并发线程访问同一个对象object中的这个synchronized(this)同步代码块时,一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。 (2)然而,当一个线程访问o...

2017-05-06 17:02:18

阅读数 275

评论数 0

Java进程间通信

进程间通信的方式有: (1)管道(Pipe):管道可用于具有亲缘关系进程间的通信,允许一个进程和另一个与它有共同祖先的进程之间进行通信。 (2)命名管道(named pipe):命名管道克服了管道没有名字的限制,因此,除具有管道所具有的功能外,它还允许无亲缘关 系 进程间的通信。命名管道在文件...

2017-05-06 16:56:13

阅读数 263

评论数 0

Java的多线程

一、创建 1、新建一个类,实现Runnable接口,重写run方法,在run方法内写要完成的任务,在main函数中,使用该类的对象 .run(),此时是使用main方法的线程,并非新建一个线程。class Task implements Runnable{ @override p...

2017-05-06 15:41:57

阅读数 154

评论数 0

抽象类和接口

抽象类和接口的区别  抽象类里面可以有非抽象的方法,接口里只能有抽象方法。  抽象类中的抽象方法声明时不能有大括号,而接口中的所有方法都没有大括号。抽象类(abstract class):  a.抽象类是仅供派生的类,无法实例化一个抽象类,只能实例化从它派生的类。  b.抽象类的主要特征在于它包含...

2017-05-04 18:24:40

阅读数 101

评论数 0

快排的实现(Java)

1、partition函数用于返回主元在排序后所在的索引 2、quickSort函数递归调用,分别对主元两侧的子数组排序public static void quickSort(arr,p,r){ if(p<r){ q = partition(arr,p,r); ...

2017-04-29 17:27:23

阅读数 147

评论数 0

常见排序算法(js实现)

交换两个元素的值unction swap(i,j){ var tmp; tmp = i; i = j; j = tem; }一、冒泡排序 不断比较相邻两个元素的值,遍历一次,将最大(小)值冒泡到序列尾部(开头)//冒泡排序 fucntion bubbleSort(...

2017-04-29 16:22:23

阅读数 179

评论数 0

基于Lucene的搜索引擎的建立

一、基础知识 1、索引概念 索引建立:数据——>分词——>索引创建 搜索过程:获取关键字——>分词——>检索索引——>返回结果 2、索引数学模型 词元的权重计算:文档中的每个词元都对应一个权重 空间向量模型:将每个词元可以对应为空间中的一个向量 检索:将...

2017-04-28 22:53:08

阅读数 380

评论数 0

ES6-函数的扩展

1、参数默认值function log(x, y ='world'){ console.log(x,y); } log('hello'); // hello world log('hello','china'); //hello china --默认值可以覆盖function foo(x ...

2017-04-27 19:58:34

阅读数 141

评论数 0

泛型

面对不同的类型,如果具有相同的解决逻辑,我们就用同一套东西去解决,只不过在真正用的时候指定一下它要面对的类型1、参数化类型机制:即将类型参数化,类似方法中的变量参数。 容器类可以算是最具重用性的类库,包含了泛型的定义List<String> list = new ArrayList&...

2017-04-27 17:00:37

阅读数 140

评论数 0

类型信息

1.RTTI(Run-time Type Identify)运行时类型识别,基于class对象实现。 这个类型必须在编译之前已知,这样才能使用RTTI来识别它。 编译器在编译期间打开和检查 .class文件2反射Class 类与java.lang.reflect类库实现。 当通过反射与一个未...

2017-04-27 16:16:41

阅读数 166

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭