自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

steppad

向往山峰的景色

  • 博客(53)
  • 收藏
  • 关注

原创 MIT《计算机科学数学》Chaper06-State Machine

状态机:状态机是一种简单、抽象的用于描述每一步可能执行操作(输出)的模型,每一个步骤的输出都取决于输入和当前状态,一般所指的状态机都是有限状态机,如果当前状态是无限的,不能确定其个数(比如人物的状态这是无限的),则被称为无限状态机,状态机中若存在某个状态则说明该状态可达,若某些时候状态机出现多个可能的次态,则状态机不可定,其中每个状态机都有相应的“状态”与“变换”;不变量原则:在状态机的状态转变过程

2017-08-11 21:17:39 539

原创 《信息检索导论》(第五章)索引压缩

索引压缩的优点:① 增加高速缓存(catching)技术的利用率;② 加快数据从磁盘到内存的传输速度;压缩技术分为有损压缩与无损压缩,无损压缩是指压缩后所有的原始信息都被保留下来,当有损压缩损失的信息不被检索系统检索到时,有损压缩是有意义的。对于Web检索来说,文档数目大、查询时间短、用户只关注前几页的特点等等;语言统计学三大定律:Heap定律、Zipf定律、Benford定律;其中,Heap定律用

2017-08-08 16:46:03 1084

原创 MIT《计算机科学数学》Chaper05-Induction

一般归纳法:     假设谓词P对于自变量n∈N,P(n)为true的条件为:    1. P(0) 为真,并且    2. P(n) implys P(n+1)对于任意的n均成立,则    谓词P对于任意的m,m∈N都成立,即,        强归纳法:    假设谓词P对于自变量n∈N, P(n)为true的条件为:    1. P(0) 为真,并且    2. 对于所有n,n∈N,P(

2017-08-03 16:49:44 553

原创 《信息检索导论》(第四章)索引构建

信息检索索引构建-动态索引构建、内存式单遍扫描索引构建(SPIMI)、分布式索引构建(以MapReduce为例)、基于块的排序索引(BSBI)

2017-08-03 15:29:06 1292

原创 MIT《计算机科学数学》Chaper04-Mathematical Data Types

集合(Set):元素的聚集,元素可以是任意数据类型,其中集合具有无序性、无异性;常用的特殊集合标志:∅、N、Z、Q、R、C;集合运算:union:x∈A∪B IFF x∈A OR x∈B;intersection:x∈A∩B IFF x∈A AND x∈B;difference:x∈A-B IFF x∈A AND x∉B;complement:A ̅ = D – A;幂集(Power S

2017-07-30 21:23:49 576

原创 《信息检索导论》(第三章)词典以及容错式检索

用于词典搜索的数据结构:哈希表与搜索树,需要考虑的问题包括关键字的数目、关键字数目是否经常变化、不同的关键词访问的频率差别;其中,哈希表为了减少地址冲突,需要用于映射的地址空间很大,同时还需要建立一个辅助功结构解决冲突;同时,哈希表不能处理相近查询的问题,当检索词项具有细微差别时,映射到的地址可能差别很大;其次,搜索树最典型的是搜索二叉树(二叉排序树),若左子树不空,则左子树上的所有结点值均小于等于

2017-07-30 10:54:41 821

原创 MIT《计算机科学数学》Chaper03-Logical Formulas

逻辑运算NOT AND OR 等常用逻辑运算;P IMPLIES Q:当P为false或者Q为true时候,整个命题为true;XOR 表示异或,相异为真;IF AND ONLY IF:与异或相反,相同为真;对于数学公式而言,只关心前后单独命题的真假,而不讨论两个命题之间的联系;任何复杂的逻辑语句都可以变形为A OR B的形式,简化后的逻辑运算可以减少操作的次数,减少对硬件的逻辑门电路的个数,减少能

2017-07-28 16:30:30 939

原创 MIT《计算机科学数学》Chaper02-The Well Ordering Principle

良序定理(The Well Ordering Principle):每一个非空的非负整数集合都存在一个最小值;良序证明模式:证明“P(n) is true for all n∈N”;1 定义集合C,C的元素为所有使得P的反例为true的所有n的集合;2 假设C非空,通过反证来说明命题错误;3 通过良序定理说明在集合C中存在一个最小的元素;4 通过某种方式达到一个矛盾:P(n)为

2017-07-26 20:49:37 1850

原创 信息检索导论(第二章) 词项词典及倒排记录表

文档字符生成过程中存在编码识别问题,一般通过启发式的机器学习手段来识别或者手工选择方式来解决;文档的“单位”:文档单位即“索引粒度”的设定往往需要根据实际情况的需求设定,粒度过大或者过小都有弊端,粒度过小,词汇都被包含在篇幅很小的段落中,遗漏了其余相关的段落后导致正确率高召回率低,粒度过大,正确率低召回率高;词条化:将给定的字符序列拆分成一系列的子序列的过程,其中的每个子序列称作词条;

2017-07-26 15:24:58 1174

原创 Python中的SyntaxError错误之can't decode bytes in...

今天晚上在打开word2vec自带text8数据集时,准备先看看数据额格式,由于文件过大只好尝试使用python每次将一部分部分读出简单的程序代码如下:# encode = utf8file = open('C:\Users\\bobo\Desktop\\text8.txt')data = file.read(10240)print(data)提示信息如下;SyntaxError:

2017-07-25 20:21:48 984

原创 MIT《计算机科学数学》Introduction & Chaper01-Proofs

证明(proof):是解决在计算机科学所遇到的问题时所使用的重要方法,问题的作者通过数学证明来与其他数学家对问题进一步讨论,获取进一步理解;对于一个推论的数学证明,是一种基于一定的公理事实,经过一段链式逻辑证明后得到一个新的命题的过程;命题(Propositions):命题是一种事实的陈述,包括正确和错误两种状态;谓词(Predicates):谓词可以理解成一种逻辑值的真假需要由一个或

2017-07-20 16:21:27 733

原创 信息检索导论(第一章) 布尔检索

第一章 布尔检索信息检索(IR):是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程,其中根据用户需求进行的文本聚类,分类也属于信息检索的范畴;传统线性扫描的检索方式弊端:大规模数据集背景下的检索性能可能较低;不能满足更灵活的信息匹配要求;不能对满足匹配的文件进行排序得到最佳列表;非线性扫描:构建文档关联矩阵,事先记录每篇文

2017-07-20 11:17:11 1526

原创 机器学习算法之线性回归(Linear Regression)

Linear Regression(线性回归)机器学习按算法任务执行学习任务的方式分主要有:有监督学习、半监督学习、无监督学习、增强学习和最近有国外提出的自监督学习等。其中,分类问题、回归问题、标注问题都属于有监督学习领域的任务。线性回归属于回归问题的一个方面。线性回归线性回归的任务是在输入变量与输出变量之间建立一个最高次数为1次的函数映射关系(不能只有0次),这是一种线性的函数关系,在二维坐标系中

2017-06-30 22:50:46 925

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除