自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (7)
  • 收藏
  • 关注

转载 MySQL DELETE语句和TRUNCATE TABLE语句的区别

原文地址:http://database.51cto.com/art/201010/229086.htmMySQL DELETE语句和TRUNCATE TABLE语句功能相似,但是二者究竟有何区别呢?下文就将为您分析MySQL DELETE语句和TRUNCATE TABLE语句的区别,供您参考。在MySQL中有两种方法可以删除数据,一种是MySQL DELETE语句,另

2013-07-26 10:36:56 570

转载 Linux下修改及查看mysql数据库的字符集

原文地址:http://linux.chinaunix.net/techdoc/database/2008/03/23/986386.shtmlLiunx下修改MySQL字符集:1.查找MySQL的cnf文件的位置find / -iname '*.cnf' -print/usr/share/mysql/my-innodb-heavy-4G.cnf/usr/share

2013-07-26 10:35:43 4101

转载 Mysql中文乱码问题完美解决方案

原文地址:http://www.2cto.com/database/201108/101151.htmlMySQL会出现中文乱码的原因不外乎下列几点:1.server本身设定问题,例如还停留在latin12.table的语系设定问题(包含character与collation)3.客户端程式(例如php)的连线语系设定问题强烈建议使用utf8!!!!utf8

2013-07-26 10:26:12 597

转载 MySQL字符集查看方法

原文地址:http://www.jz123.cn/text/1035861.htmlMySQL字符集多种多样,下面为列举了其中三种最常见的字符集查看方法,该方法供您参考,希望对学习MySQL数据库能有所启迪。一、查看MySQL数据库服务器和数据库MySQL字符集。mysql> show variables like '%char%';  +-------------

2013-07-26 10:25:20 563

转载 教程SQL2005将远程数据库导入到本地

原文地址:http://www.dzwebs.net/3820.html远程数据库与本地数据库数据之间的导入导出,从来都是一个值得人关注的问题。  下面,就给你详细介绍SQL2005将远程数据库导入到本地的方法。  首先,将SQL2005打开。方法是:“开始“→“程序”→“Microsoft SQL Server 2005”→“SQL Server Management S

2013-07-25 16:17:59 3082

转载 WPF入门教程系列(一) 创建你的第一个WPF项目

原文地址:http://www.cnblogs.com/zcttxs/archive/2012/04/01/2428527.htmlWPF基础知识快速学习绝不是从零学起的,良好的基础是快速入手的关键,下面先为大家摞列以下自己总结的学习WPF的几点基础知识:1) C#基础语法知识(或者其他.NET支持的语言):这个是当然的了,虽然WPF是XAML配置的,但是总

2013-07-25 16:16:36 960

转载 Java日志管理:Logger.getLogger()和LogFactory.getLog()的区别(详解Log4j)

原文地址:http://javacrazyer.iteye.com/blog/1135493第一、Logger.getLogger()和LogFactory.getLog()的区别    1.Logger.getLogger()是使用log4j的方式记录日志;    2.LogFactory.getLog()则来自apache的common-logging包。

2013-07-18 14:08:35 11050

转载 Lucene:基于Java的全文检索引擎简介

原文地址:http://www.chedong.com/tech/lucene.htmlLucene是一个基于Java的全文索引工具包。基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史全文检索的实现:Luene全文索引和数据库索引的比较中文切分词机制简介:基于词库和自动切分词算法的比较具体的安装和使用简介:系统结构介绍和演示Hacking Luc

2013-07-18 14:06:19 765

转载 Luke使用

原文地址:http://hi.baidu.com/thinke365/item/43e58fca1ee66b2bef46654b首次用Luke打开索引文件。Overview里面显示了索引具有的Field数目(以最大的Field为准吧?),还有就是文档的总数和 Term即索引词的总数? 有时一个关键词,对应于多个文档,所以文档数要多于关键字数目。还显示了索引的版本和索引的

2013-07-18 10:21:49 2451 1

转载 lucene开发必备工具luke介绍

原文地址:做lucene开发的,免不了要和索引文件打交道,但是一些二进制的文件我们怎么去看,下面就要隆重的有请luke了根据百度百科的说法:Luke是一个用于Lucene搜索引擎的,方便开发和诊断的第三方工具,它可以访问现有Lucene的索引,并允许您显示和修改。我们可以通过luke来进行一般的索引查看和修改操作。就打个比方,lucene的索引文件就好像

2013-07-18 10:20:15 2869

转载 Doug Cutting 访谈录 -- 关于搜索引擎的开发

原文地址:http://www.blogjava.net/dedian/archive/2006/08/02/Doug_Cutting_Interview.html作为Lucene和Nutch两大Apach Open Source Project的始创人(其实还有Lucy, Lucene4C 和Hadoop等相关子项目),Doug Cutting 一直为搜索引擎的开发人员所关注。他终于

2013-07-18 10:16:10 1157

转载 Nutch使用总结

原文地址:http://wenku.baidu.com/view/9447ba02cc175527072208ba.htmlNutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch使用方法简介: http://blog.csdn.net/pengpengfly/archive/2008/09/29/2994

2013-07-17 13:23:41 3679

转载 nutch java.io.UTFDataFormatException: Invalid byte 1 of 1-byte UTF-8 sequence

原文地址:http://liyanblog.cn/articles/2012/09/25/1348555726092.htmlMyPoint:当我们配置Nutch搜索环境时,需要将Nutch发布的文件nutch-*.*.war(这里我使用的是nutch-1.1.war)复制到Tomcat下的webapps文件下,然后我们会配置 WEB-INFclasses下的nutch-site.xm

2013-07-17 10:49:49 4329

转载 hadoop 在windows的Eclipse下运行出现Cannot run program "chmod": CreateProcess error=2 异常

原文地址:http://blog.csdn.net/longyi_java/article/details/8242625Windows下用Eclipse开发Hadoop程序遇到的问题及解决方法1. 运行hadoop程序报错如下:Exception in thread "main" java.io.IOException: Cannot run progra

2013-07-17 09:25:53 5177 1

转载 window环境下在myeclipse中配置nutch

原文地址:http://www.th7.cn/system/win/201302/37104.shtml由于论文需要,最近在研究nutch,网上几乎没有一篇在window环境下能够配置正确的文档.今天一天的努力,终于配置成功了!现在将资料和配置过程整理如下.1、安装Cygwin      首先,到 http://www.cygwin.com/官网上下在set

2013-07-16 16:06:21 1486

转载 Nutch在Windows中安装之细解

原文地址:http://blog.csdn.net/zjzcl/article/details/590537近来Nutch一词在网络中时有所见,但囿于平常工作繁忙而未能潜心细读与研究,只知道Nutch是Apache组织的一个开源项目,利用它用户可以建立自己内部网的搜索引擎,也可以建立针对整个网络的搜索引擎。好在春节假日期间,终于得空可以从容对其进行一番解读与测试了。在使用Nut

2013-07-15 15:35:34 693

[JavaScript权威指南(第6版)].(JavaScript:The.Definitive.Guide).David.Flanagan.文字版.pdf

关于Javascript很权威的一本书,内含目录书签,共1000多页

2013-11-29

Kinect应用开发实战用最自然的方式与机器对话(带书签)

Kinect开发上最全面的的中文资料,值得一看

2013-09-30

信息检索导论(Christopher D. Manning Prabhakar Raghavan)

信息检索导论(Christopher D. Manning Prabhakar Raghavan等著 王斌 译) 最经典的搜索引擎入门书籍,由浅入深的带领读者进入搜索引擎世界。 目录: 第 1 章 布尔检索...............................................1 1.1 一个信息检索的例子..................................2 1.2 构建倒排索引的初体验..............................5 1.3 布尔查询的处理..........................................8 1.4 扩展的布尔检索模型及有序检索............11 1.5 参考文献及补充读物................................13 第 2 章 词项词典及倒排记录表...................14 2.1 文档分析及编码转换................................14 2.1.1 字符序列的生成............................14 2.1.2 文档单位的选择............................15 2.2 词项集合的确定........................................16 2.2.1 词条化............................................16 2.2.2 去除停用词....................................19 2.2.3 词项归一化....................................20 2.2.4 词干还原和词形归并....................23 2.3 基于跳表的倒排记录表快速合并算法....26 2.4 含位置信息的倒排记录表及短语查询....28 2.4.1 二元词索引....................................28 2.4.2 位置信息索引................................29 2.4.3 混合索引机制................................31 2.5 参考文献及补充读物................................32 第 3 章 词典及容错式检索............................34 3.1 词典搜索的数据结构................................34 3.2 通配符查询...............................................36 3.2.1 一般的通配符查询........................36 3.2.2 支持通配符查询的k-gram索引.....37 3.3 拼写校正...................................................39 3.3.1 拼写校正的实现............................39 3.3.2 拼写校正的方法............................40 3.3.3 编辑距离........................................40 3.3.4 拼写校正中的 k-gram索引............41 3.3.5 上下文敏感的拼写校正................42 3.4 基于发音的校正技术................................43 3.5 参考文献及补充读物................................44 第 4 章 索引构建.............................................46 4.1 硬件基础....................................................46 4.2 基于块的排序索引方法............................47 4.3 内存式单遍扫描索引构建方法................50 4.4 分布式索引构建方法................................51 4.5 动态索引构建方法....................................54 4.6 其他索引类型............................................56 4.7 参考文献及补充读物................................57 第 5 章 索引压缩.............................................59 5.1 信息检索中词项的统计特性....................59 5.1.1 Heaps定律:词项数目的估计......61 5.1.2 Zipf定律:对词项的分布建模.....62 5.2 词典压缩....................................................63 5.2.1 将词典看成单一字符串的 压缩方法........................................63 5.2.2 按块存储........................................64 5.3 倒排记录表的压缩....................................66 5.3.1 可变字节码....................................67 5.3.2 γ 编码.............................................68 5.4 参考文献及补充读物................................74 第 6 章 文档评分、词项权重计算及 向量空间模型....................................76 6.1 参数化索引及域索引................................76 6.1.1 域加权评分....................................78 6.1.2 权重学习........................................79 6.1.3 最优权重g的计算..........................80 6.2 词项频率及权重计算................................81 6.2.1 逆文档频率....................................81 6.2.2 tf-idf权重计算................................82 6.3 向量空间模型............................................83 6.3.1 内积................................................83 6.3.2 查询向量........................................85 6.3.3 向量相似度计算............................87 6.4 其他tf-idf权重计算方法...........................88 6.4.1 tf的亚线性尺度变换方法.............88 6.4.2 基于最大值的tf归一化.................88 6.4.3 文档权重和查询权重机制............89 6.4.4 文档长度的回转归一化................89 6.5 参考文献及补充读物................................92 第 7 章 一个完整搜索系统中的评分 计算......................................................93 7.1 快速评分及排序.......................................93 7.1.1 非精确返回前K篇文档的方法.....94 7.1.2 索引去除技术................................94 7.1.3 胜者表...........................................95 7.1.4 静态得分和排序............................95 7.1.5 影响度排序....................................96 7.1.6 簇剪枝方法....................................97 7.2 信息检索系统的组成................................98 7.2.1 层次型索引....................................98 7.2.2 查询词项的邻近性........................98 7.2.3 查询分析及文档评分函数的 设计...............................................99 7.2.4 搜索系统的组成..........................100 7.3 向量空间评分方法及各种查询操作 符的关联.................................................101 7.3.1 布尔检索......................................101 7.3.2 通配查询......................................102 7.3.3 短语查询......................................102 7.4 参考文献及补充读物..............................102 第 8 章 信息检索的评价..............................103 8.1 信息检索系统的评价..............................103 8.2 标准测试集.............................................104 8.3 无序检索结果集合的评价......................105 8.4 有序检索结果的评价方法......................108 8.5 相关性判定.............................................112 8.6 更广的视角看评价:系统质量及 用户效用.................................................115 8.6.1 系统相关问题..............................115 8.6.2 用户效用......................................115 8.6.3 对已有系统的改进......................116 8.7 结果片段.................................................116 8.8 参考文献及补充读物..............................118 第 9 章 相关反馈及查询扩展.....................120 9.1 相关反馈及伪相关反馈..........................120 9.1.1 Rocchio相关反馈算法.................122 9.1.2 基于概率的相关反馈方法..........125 9.1.3 相关反馈的作用时机..................125 9.1.4 Web上的相关反馈......................126 9.1.5 相关反馈策略的评价..................127 9.1.6 伪相关反馈..................................127 9.1.7 间接相关反馈..............................128 9.1.8 小结..............................................128 9.2 查询重构的全局方法..............................128 9.2.1 查询重构的词汇表工具..............128 9.2.2 查询扩展......................................129 9.2.3 同义词词典的自动构建..............130 9.3 参考文献及补充读物..............................131 第 10 章 相关反馈及查询扩展...................133 10.1 XML的基本概念...................................134 10.2 XML检索中的挑战性问题...................137 10.3 基于向量空间模型的XML检索...........140 10.4 XML检索的评价...................................144 10.5 XML检索:以文本为中心与以数据 为中心的对比.......................................146 10.6 参考文献及补充读物............................148 第 11 章 概率检索模型.................................150 11.1 概率论基础知识....................................150 11.2 概率排序原理........................................151 11.2.1 1/0风险的情况.........................151 11.2.2 基于检索代价的概率排序 原理..........................................152 11.3 二值独立模型........................................152 11.3.1 排序函数的推导......................153 11.3.2 理论上的概率估计方法..........155 11.3.3 实际中的概率估计方法..........156 11.3.4 基于概率的相关反馈方法......157 11.4 概率模型的相关评论及扩展................158 11.4.1 概率模型的评论......................158 11.4.2 词项之间的树型依赖..............159 11.4.3 Okapi BM25: 一个非二值的 模型..........................................160 11.4.4 IR中的贝叶斯网络 方法..........................................161 11.5 参考文献及补充读物............................162 第 12 章 基于语言建模的信息检索 模型..................................................163 12.1 语言模型...............................................163 12.1.1 有穷自动机和语言模型..........163 12.1.2 语言模型的种类......................165 12.1.3 词的多项式分布......................166 12.2 查询似然模型.......................................167 12.2.1 IR中的查询似然模型..............167 12.2.2 查询生成概率的估计..............167 12.2.3 Ponte和Croft进行的实验........169 12.3 语言建模的方法与其他检索方法 的比较...................................................171 12.4 扩展的LM方法......................................172 12.5 参考文献及补充读物............................173 第 13 章 文本分类及朴素贝叶斯方法......175 13.1 文本分类问题.......................................177 13.2 朴素贝叶斯文本分类............................178 13.3 贝努利模型...........................................182 13.4 NB的性质..............................................183 13.5 特征选择...............................................188 13.5.1 互信息.....................................188 13.5.2 2 χ 统计量................................191 13.5.3 基于频率的特征选择方法......192 13.5.4 多类问题的特征选择方法......193 13.5.5 不同特征选择方法的比较......193 13.6 文本分类的评价....................................194 13.7 参考文献及补充读物............................198 第 14 章 基于向量空间模型的文本 分类..................................................200 14.1 文档表示及向量空间中的关联度 计算.......................................................201 14.2 Rocchio分类方法..................................202 14.3 k近邻分类器..........................................205 14.4 线性及非线性分类器............................209 14.5 多类问题的分类....................................212 14.6 偏差—方差折衷准则..............................214 14.7 参考文献及补充读物............................219 第 15 章 支持向量机及文档机器学习 方法..................................................221 15.1 二类线性可分条件下的支持向量机....221 15.2 支持向量机的扩展................................226 15.2.1 软间隔分类..............................226 15.2.2 多类情况下的支持向量机......228 15.2.3 非线性支持向量机..................228 15.2.4 实验结果..................................230 15.3 有关文本文档分类的考虑....................231 15.3.1 分类器类型的选择..................231 15.3.2 分类器效果的提高..................233 15.4 ad hoc检索中的机器学习方法.............236 15.4.1 基于机器学习评分的简单 例子.........................................236 15.4.2 基于机器学习的检索结果 排序.........................................238 15.5 参考文献及补充读物............................239 第 16 章 扁平聚类.........................................241 16.1 信息检索中的聚类应用........................242 16.2 问题描述................................................244 16.3 聚类算法的评价....................................246 16.4 K-均值算法............................................248 16.5 基于模型的聚类....................................254 16.6 参考文献及补充读物............................258 第 17 章 层次聚类.........................................260 17.1 凝聚式层次聚类....................................260 17.2 单连接及全连接聚类算法....................263 17.3 组平均凝聚式聚类................................268 17.4 质心聚类................................................269 17.5 层次凝聚式聚类的最优性....................270 17.6 分裂式聚类............................................272 17.7 簇标签生成............................................273 17.8 实施中的注意事项................................274 17.9 参考文献及补充读物............................275 第 18 章 矩阵分解及隐性语义索引..........277 18.1 线性代数基础........................................277 18.2 词项—文档矩阵及SVD..........................280 18.3 低秩逼近................................................282 18.4 LSI.........................................................284 18.5 参考文献及补充读物............................287

2013-04-12

吉林大学人工智能2012课件

吉林大学2012年人工智能课件。 非常不错的资源

2013-04-09

汇编语言chm版(吉大内部资料)

绝对是汇编语言入门级的宝书! 容易上手,易学!

2010-10-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除