- 博客(6)
- 资源 (1)
- 收藏
- 关注
转载 字节序(Endian),大端(Big-Endian),小端(Little-Endian)
字节序(Endian),大端(Big-Endian),小端(Little-Endian)http://www.cppblog.com/tx7do/archive/2009/01/06/71276.html 在各种计算机体系结构中,对于字节、字等的存储机制有所不同,因而引发了计算机通信领域中一个很重要的问题,即通信双方交流的信息单元(比特、字节、字、双字等等)应该以什么样的顺序进行传
2012-05-15 17:33:05 1770
转载 gbk, gb2312,big5,unicode,utf-8,utf-16的区别 gbk, gb23
Unicode编码,UCS、UTF、BMP、BOM等名词 这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级。整理这篇文章的动机是两个问题: 问题一: 使用Windows记事本的“另存为”,可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件,Wi
2012-05-15 17:09:18 1931
转载 MMSEG系统:中文分词入门之最大匹配法扩展
这里曾写过《中文分词入门之最大匹配法》,并且获得了很高的关注度,不过现在回头来看,这个方法只是最初级的中文分词匹配 方法。事实上,很多学者都基于简单的中文分词匹配法做了扩展,其中比较有名的就是台湾蔡志浩老师1996年写的“MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of
2012-05-10 17:44:58 2562
转载 B树、B-树、B+树、B*树都是什么
B树 即二叉搜索树: 1.所有非叶子结点至多拥有两个儿子(Left和Right); 2.所有结点存储一个关键字; 3.非叶子结点的左指针指向小于其关键字的子树,右指针指向大于其关键字的子树; 如: B树的搜索,从根结点开始,如果查询的关键字与结点的关键字相等,那么就命中;否则,如果
2012-05-10 16:41:27 535
转载 余弦相似度
在向量空间模型中,文本泛指各种机器可读的记录。用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1其中,W1k、W2k分别表示文本D1和D2第K个特征项的权值,1在自动归类中,我们可以利用类似的方法来计算待归类文档和某类目的相关度。
2012-05-02 16:32:14 801
转载 TF-IDF
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相
2012-05-02 15:18:35 588
VSCode简介 VSCode是一款微软出的轻量级编辑器,它本身只是一款文本编辑器而已,所有的功能都是以插件扩展的形式所存在
2023-08-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人