自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Liam Q的专栏

专注于数据分析与处理

  • 博客(10)
  • 资源 (13)
  • 收藏
  • 关注

转载 倒排索引基础

1.单词-文档矩阵       通常检索的场景是:给定几个关键词,找出包含关键词的文档。      怎么快速找到包含某个关键词的文档就成为搜索的关键。这里我们借助单词-文档矩阵模型,通过这个模型我们可以很方便知道某篇文档包含哪些单词,某个单词被哪些文档所包含。       搜索引擎的索引其实就是实现单词-文档矩阵的具体数据结构,具体可以包括:倒排索引、签名文件、后缀树等。常见的当然

2012-12-29 10:38:38 4284 1

原创 统计学习笔记(4)——朴素贝叶斯法

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。简单来说,朴素贝叶斯分类器假设样本每个特征与其他特征都不相关。举个例子,如果一种水果具有红,圆,直径大概4英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。尽管是带着这些朴素思想和过于简单化的假设,但朴素贝叶斯分类器在很多复杂的现实

2012-12-27 12:59:07 17889 7

原创 布尔检索及其查询优化

针对布尔查询的检索,布尔查询是指利用AND,OR或者NOT操作符将词项连接起来的查询。        举个简单的例子:莎士比亚的哪部剧本包含Brutus及Caesar 但是不包含Calpurnia?布尔表达式为:Brutus AND Caesar AND NOTCalpurnia。最笨的方法是线性扫描的方式:从头到尾扫描所有剧本,对每部剧本判断它是否包含Brutus和Caesar ,同时又不包

2012-12-26 02:29:40 13744 1

原创 统计学习笔记(3)——k近邻法与kd树

在使用k近邻法进行分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决的方式进行预测。由于k近邻模型的特征空间一般是n维实数向量,所以距离的计算通常采用的是欧式距离。关键的是k值的选取,如果k值太小就意味着整体模型变得复杂,容易发生过拟合,即如果邻近的实例点恰巧是噪声,预测就会出错,极端的情况是k=1,称为最近邻算法,对于待预测点x,与x最近的点决定了x的类别。k值得增大意味着整体的

2012-12-24 12:34:05 45767 18

原创 统计学习笔记(2)——感知机模型

感知机学习旨在求出将训练数据集进行线性划分的分类超平面,为此,导入了基于误分类的损失函数,然后利用梯度下降法对损失函数进行极小化,从而求出感知机模型。感知机模型是神经网络和支持向量机的基础。下面分别从感知机学习的模型、策略和算法三个方面来介绍。1. 感知机模型      感知机模型如下:f(x)= sign(w*x+b)      其中,x为输入向量,sign为符号函数,括号里

2012-12-23 12:28:29 35464 11

原创 统计学习笔记(1)——统计学习方法概论

1.统计学习        统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习。统计学习是数据驱动的学科。统计学习是一门概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。        统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。统计

2012-12-20 12:11:47 39216 9

原创 文本特征提取

文本挖掘模型结构示意图1. 分词分词实例:       提高人民生活水平:提高、高人、人民、民生、生活、活水、水平分词基本方法:        最大匹配法、最大概率法分词、最短路径分词方法1.1 最大匹配法        中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的

2012-12-17 12:45:11 61063 4

原创 蒙提霍尔问题

蒙提霍尔问题(Monty Hall Problem),也称三门问题,是一个源自博弈论的数学游戏问题,大致出自美国的电视游戏节目“Let's Make a Deal”。问题的名字来自该节目的主持人蒙提·霍尔(Monty Hall)。 问题如下:        参赛者会看见三扇关闭了的门,其中一扇的后面有一辆车。参赛者选中了其中一扇门,节目主持人会开启剩下两扇门的其中一扇,露出其中一只山羊

2012-12-03 20:57:04 4953 2

转载 c++开源机器学习库及机器学习知识框架(更新中)

1)mlpack is a C++ machine learning library.2)PLearn is a C++ library aimed at research and development in the field of statistical machine learning algorithms. Its originality is to allow to easily

2012-12-03 13:05:17 13050 1

原创 一元线性回归模型与最小二乘法及其C++实现

监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归。回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。对于二维空间线性是一条直线;对于三维空间线性是一个平面,对于多维空间线

2012-12-02 14:13:25 59943 16

Scala程序设计 第2版.pdf

本书通过大量的代码示例,全面介绍 Scala 这门针对 JVM 的编程语言,向读者展示了如何高效地利用 Scala 语言及其生态系统,同时解释了为何 Scala 是开发高扩展性、以数据为中心的应用程序的理想语言。

2019-05-10

麻省理工算法导论视频课程字幕

网上很多地方都可以找到麻省理工算法导论的公开课,可是大部分都没有中文字幕,这里是这个课程的字幕,花了很大力气才弄到的 和大家分享了

2011-10-23

BIRCH算法源码

BIRCH算法源码,C++实现,已在solaris下编译通过

2011-10-23

jrobin学习例子程序

学习用jrobin绘图的绝佳例子程序 学习用jrobin绘图的绝佳例子程序

2010-04-09

JProfiler使用手册与JProfiler5.2.1注册码

包括JProfiler使用手册和JProfiler5.2.1的注册码 注册码保证可用

2010-04-09

vlan学习资料 vlan详解 vlan学习笔记

网上收集的很多vlan方面的介绍资料 自己做的chm格式的学习资料 包括:为什么需要vlan 实现vlan的机制 vlan的访问链接和汇聚链接等等 还包括vlan的配置和vlan在企业中的实际应用

2010-03-31

点击率极高的java多线程编程

自己从网上整理的做的chm文件 学习java多线程 十分有用 网上点击率极高

2010-03-08

java网络编程学习资料

提高学习java网络编程速度 包括相关API—Java Transaction API概述(1).chm 基础知识—Java的网络功能与编程(1).chm Socket套接字—Java套接字编程(上1).chm 相关API—Java Transaction API概述(1).chm

2010-03-08

GTK+ 2.0 教程(中文,chm)

GTK+ 2.0中文教程 网上也有很多 不过这个事chm格式的 看起来方便

2009-07-18

软件工程师&数据库工程师试题及答案chm格式

软件工程师&数据库工程师试题及答案 软考有用 chm格式的

2009-07-10

学生成绩管理系统源码

学生成绩管理系统 c++写的 可以看看

2009-07-10

基于j2ee的网上商城

基于j2ee的网上商城 用到了struts

2009-07-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除