- 博客(11)
- 资源 (5)
- 收藏
- 关注
原创 solr中关于core的管理
一、查询1.core的状态查询http://se246:8983/solr/admin/cores?action=STATUS2.指定coreName进行查询http://localhost:8983/solr/admin/cores?action=STATUS&core=core0二、创建需要提供coreName、实例路径、Config配置、schema文件及数据目录 ,
2014-05-30 14:02:18 1580
转载 深度学习
Deep Learning是机器学习中一个非常接近AI的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,最近研究了机器学习中一些深度学习的相关知识,本文给出一些很有用的资料和心得。Key Words:有监督学习与无监督学习,分类、回归,密度估计、聚类,深度学习,Sparse DBN,1. 有监督学习和无监督学习给定一组数据(input,target)为Z=
2014-05-07 10:43:44 808
索引的建立、更新策略
一、索引的建立分为三种方式:1.两遍文档倒排法第一遍文档扫描时完成一些全局信息统计,如文档集合的数量、每个文档的单词数量、词频等第二遍文档扫描的主要任务是填补每个单词的倒排列表,完全在内存中进行2.排序倒排法步骤为:排序文档ID赋值、单词ID赋值、更新词典、统计词频、构建三元组、三元组排序、写中间结果文件、合并中间结果文件。3.归并倒排法 二、索引更新...
2014-05-03 17:50:51 244
网页分类算法
网页自动分类是通过对某一特定的网页样本进行训练获得该类别网页的形式化描述,在此基础上训练分类器,进而对未知类别的网页进行类别判断的技术。常用的分类器有SVM、朴素贝叶斯、KNN、Rocchio、中心分类算法CBC(Center Based Classification)...
2014-05-03 17:26:06 631
网页去重算法
网页去重发生在网页下载后、索引建立前,典型的网页去重算法有SHINGLING、I-MATCH算法、Random Projection、SimHash算法以及SPOTSING算法
2014-05-03 17:20:20 215
关联算法总结
1.FP-growth基本原理:Frequency Pattern-growth频繁模式增长算法,也是决策树算法,在产生候选项目集的时候采用模式增长的方法递归挖掘全部频繁模式,并且只需扫描事务数据库两次。它采用分而治之的思想:经过一片扫描后,将提供频繁项集的事务数据库压缩成一颗频繁模式树,但仍保留项集的关联信息。然后,将这种压缩后的事务数据库分成一组条件数据库,每个条件数据库关联一个频繁项集,...
2014-05-03 16:37:47 663
聚类算法的MapReduce并行化分析
五一假期,还好没有出去,到处都是堵啊。闲在看看分类、聚类算法、关联算法,现总结一下常见的聚类算法并进行MR分析。1.K-means基本原理:首先随机的选择K个对象,每个对象代表一个簇的初始均值和中心;对剩余的每个对象,根据其与各个簇的均值的距离,将其指派到最相似的簇。然后计算每个簇的新均值,过程不断重复直到准则函数收敛效率分析:时间复杂度O(nki)、空间复杂度O(k)MapReduc...
2014-05-03 16:27:00 924
java动态编程简述
动态编程指的是改变经典编程方式(源文件-->编译-->二进制文件---->运行方式)的行为.1.使用Compiler Api 创建类文件,同时允许在程序运行中编译源文件。在动态使用java类时可以启用诊断信息监听器和编译选项。2.使用Instrumentation构建代理,可以用来监测JVM上的程序,一般是通过在执行某个类文件之前,对类文件的字节码适当修改来实现3...
2014-05-02 17:15:00 124
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人