- 博客(54)
- 收藏
- 关注
原创 关于自增与运算
int main(){ int a; int x; a=0;x=0; int u=++x; cout cout int n=(!x++); cout cout int m=(a cout cout for (a=0, x=0;a {
2013-10-11 11:25:44 1669
转载 MAC电脑新手入门指南
经常看到这里有新加入mac的童鞋问怎么使用mac系统的问题。。。我不算最早,但是也使用mac有6年了,算比较熟悉mac系统吧,每年我都要帮身边的朋友或者tgfc网友购买10台左右的mac机器,每次也都是我负责开苞调试和安装软件。。对一台新开盒的mac机应该如何使用我也算是滚瓜烂熟了吧。。在这里分享一些使用mac电脑和系统的经验,帮助一些新入门的朋友,算给自己积德。首先说一些装b扮成
2013-05-16 17:13:05 3774
转载 mac修改机器名、提示符、隐藏\显示文件夹
虽然mac不如ubuntu感觉open,但是系统感觉还是挺好用的.用了小半年了,积累了几个不可缺少的经验,记录一下(因为头两周用的时候又忘记了.). 1.修改机器名 mac安装完成以后会默认将你的机器设成"rainbird's Macbook Pro"之类的名字.这个本身看着就不爽,如果这台机器是别人先用你再用的话,就想把它改掉了.如果你想改计算机名的话
2013-05-16 14:57:12 3228
原创 LR
快捷键:Tab控制窗口左右伸展。F键可以在不同屏幕模式下转换。L键改变背景光。7个流程模块:library、develop、map、book、slightshow、print、web。Ctrl+alt+[1-7]在7个流程模块切换。旗标:P加旗标;N去除旗标;X排除旗标。或者CTRL+上下箭头键。Library:将导入的照片按各自的特征分类管理,方便浏览和查
2013-04-25 16:34:46 2063
转载 inline内联函数
技术类笔试题50%都会问宏与inline的区别,自己去找找看?1)宏替换发生在预编译2)宏函数(如果可以这么叫的话)替换时不会检查参数,inline函数会检查3)宏一定会发生替换,inline貌似不是强制的,编译器想不替换也没关系4)宏替换时存在着一些不可避免的陷阱(参见C Traps and Pitfalls),例如传参时如果传了a++之类的可能会出错,inline就比较安全了。
2013-04-16 13:22:33 2077
转载 template<class T>
//参考 http://prglab.com/cms/pages/c-tutorial/advanced-concepts/templates.php函数模板( Function templates)模板是通用语言的特性,模板又叫参数化类型(parametrized types)。利用模板机制可以显著减少冗余信息,能大幅度地节约程序代码,进一步提高面向对象程序的可重用性和维护性模板(
2013-04-16 10:45:19 13759 2
转载 const int *p,int *const p区别
1)先从const int i说起。使用const修饰的i我们称之为符号常量。即,i不能在其他地方被重新赋值了。注意:const int i与int const i是等价的,相同的,即const与int的位置无所谓。2)const int *p(指向常量的指针,常量不可改变;指针指向的值不可变,但是指针可以指向其他量)看例子:int i1=30;int i2=40;cons
2013-04-06 21:00:07 1893
转载 线程和进程
进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位. 线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进程的其他的线程共享进程所拥有的全部资源. 进程就是一个应用程序在处理机
2013-03-29 14:26:01 1575
转载 C++ 全局变量和局部变量
转自 http://www.qiyeku.com/xinwen/45983.html 在讨论全局变量之前我们先要明白几个基本的概念:1. 编译单元(模块): 在IDE开发工具大行其道的今天,对于编译的一些概念很多人已经不再清楚了,很多程序员最怕的就是处理连接错误(LINK ERROR), 因为它不像编译错误那样可以给出你程序错误的具体位置,你常常对这种错误感到懊恼,但是如果你
2013-03-09 15:24:16 3024
转载 贝叶斯网络
1、 贝叶斯网络我们在前面的系列中多次提到马尔可夫链 (Markov Chain),它描述了一种状态序列,其每个状态值取决于前面有限个状态。这种模型,对很多实际问题来讲是一种很粗略的简化。在现实生活中,很多事物相互的关系并不能用一条链来串起来。它们之间的关系可能是交叉的、错综复杂的。马尔科夫假设成立,即每一个状态只和与它直接相连的状态有关,而和它间接相连的状态没有直接关系,则为贝叶斯
2013-01-07 18:17:10 1925
转载 矩阵运算和文本处理中两个分类的问题
矩阵运算和文本处理中两个分类的问题 文本和词汇的矩阵在NLP中,最常见的两个分类是,将文本按主题归类 和 将词汇表中的字词按意思归类。——都可以用矩阵计算圆满解决。分类的本质是 聚类问题。 分类的关键是计算相关性。我们首先对两个文本计算出它们的内容词,或者说实词的向量,然后求这两个向量的夹角。当这两个向量夹角为零时,新闻就相关;当它们垂直或者说正交时,新闻则无关。当然,夹角
2013-01-07 16:07:19 3267
转载 余弦定理和新闻分类
新闻的特征向量把文字的新闻变成一组可计算的数字,再设计一个算法类计算任意两篇新闻的相似性。找一组数字(或者向量)描述一篇新闻,词是信息的载体,因此要对每个实词的重要性进行排序。在“如何度量网页相关性”一文中介绍的TF/IDF 的概念。对于一篇新闻中的所有实词,我们可以计算出它们的单文本词汇频率/逆文本频率值(TF/IDF)。不难想象,和新闻主题有关的那些实词频率高,TF/IDF 值很大
2013-01-07 11:13:56 2502
转载 有限状态机和动态规划——地图和本地搜索基本技术
地址识别和有限状态机地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机。每一个有限状态机,都有一个开始状态和一个终止状态,以及若干中间状态。每一个弧上带有从一个状态进入下一个状态的条件。若能从开始状态达到终止状态,则这条地址有效。使用有限状态机识别地址,关键解决两个问题:1、通过有效地址建立状态机,(有了关于地址的有限状态机后
2013-01-07 10:50:18 3148
原创 二叉树的遍历与建立
遍历二叉树二叉树的遍历,从根结点出发,按照某种次序依次遍历二叉树中所有结点,使得每一个结点被访问一次且仅被访问一次。1、二叉树的遍历方法:(限制从左到右的习惯)1、前序遍历:根左右(第一个结点为根结点)2、中序遍历:左根右(根结点将树分为左右两部分)3、后序遍历:左右根(最后一个结点为根结点)4、层序遍历:从树的第一层开始,从左至右。这四种遍历方法都是 把树中的结点变成
2013-01-04 16:39:29 1512
原创 将多个文件夹中音频合并到一个文件夹中
for /r D:\说话人识别\westwing2 %f in (*.wav) do copy "%f" d:\test
2013-01-03 19:20:20 2951
原创 二叉树——特点、性质、存储结构
一、二叉树的定义折半查找引出。1、二叉树的特点1)每个结点最多有两棵子树2)左子树和右子树是有顺序的,不能颠倒次序3)即使树中只有一棵子树,也要区分是左子树 还是右子树二叉树有5种形态:空二叉树、只有一个根结点、根结点只有左子树、根结点只有右子树、根结点有左子树和右子树2、特殊二叉树1)斜树: 所有结点都只有左子树——左斜树 所有结点都只
2013-01-03 10:50:38 4790
原创 数的定义及存储结构
一、树的定义1、一对多的数据结构:(1)n>0(n为结点),根节点是唯一的(2)m>0(余节点),子树的个数没有限制,但一定互不相交。2、结点分类结点的度:结点拥有子树数。 度为0的结点为叶结点或终端结点;度不为0的结点称为非终端结点或分支结点。除根结点外,又称为分支结点或内部结点。树的度:树内各结点的度的最大值。3、结点间的关系:孩子,双亲(父母同体)。兄弟:
2013-01-02 09:41:32 1783
转载 机器学习——监督学习,半监督学习,无监督学习,主动学习
在机器学习(Machine learning)领域,监督学习(Supervised learning)、非监督学习(Unsupervised learning)以及半监督学习(Semi-supervised learning)是三类研究比较多,应用比较广的学习技术,wiki上对这三种学习的简单描述如下:监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入
2012-12-19 16:45:54 8066
转载 类
抽象后的数据和函数封装到一起,构成了C++的“类”。1、抽象:数据抽象和行为抽象。2、封装:将数据和函数封装。 关键字 public和private指定成员不同的访问权限。3、继承:允许在原有类特性上,进行更具体、更详细的说明。4、多态:一段程序能够处理多种数据类型对象。可以通过强制多态、重载多态、类型参数化多态和包含多态4种形式实现。 类是面向对象程序设计的核
2012-12-16 15:28:10 1469 1
转载 布隆过滤器
布隆过滤器(Bloom Filter)是1970年由Burton Howard Bloom提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。布隆过滤器用来过滤垃圾邮件,一个方法就是记录下那些发送垃圾邮件的E-mail地址。但是那些发送者不停地
2012-12-15 21:57:34 1928
转载 拼音输入法
输入法输入汉字的快慢取决于 对汉字编码的平均长度,也就是 击键次数 乘以 寻找这个键所需要的时间。对汉字的编码分为两部分:对拼音的编码和消除歧义性的编码最终选择拼音输入法,原因有三个优点,可以让他输入速度并不慢:1、不需要专门学习2、输入自然,不会中断思维,也就是找每个键的时间非常短3、编码长,有信息冗余量,容错性好 然后要解决的问题是。排除一音多字的歧义性。 对常
2012-12-04 21:17:03 916 1
转载 表达式求值——栈的应用
转载请注明出处:http://www.cnblogs.com/luna-lovegood/archive/2012/07/17/2596501.html 一个算术表达式,含有数字(为简化处理,数字只有一位),运算符:+、-、*,以及括号,求表达式的值。 给出的表达式是一般我们见到的中缀表达式,即运算符位于操作数之间。如果把中缀表达式转化为后缀表达式,那么对后缀表达式求值将会很方便。 后
2012-12-03 21:26:10 763
转载 期望最大化算法EM
1、文本的自动收敛分类文本TF-IDF向量的计算,余弦距离的计算;随机挑出一些类的中心,优化这些中心,使它们和真实的中心和真实的聚类中心尽可能一致。类数可以确定,也可以不定。分类步骤:(1)随机选K个点,作为起始中心(2)计算所有点到这些聚类中心的距离,把这些点归到最近的一类中(3)重新计算每一类的中心,最简单的是用每一类的中心作为新的中心(分别计算每一维的平均值)。新
2012-11-29 17:29:02 2442
原创 线性表
线性表(List):零个或多个数据元素的有限序列。顺序存储结构、链式存储结构。 顺序存储结构:用一段地址连续的存储单元依次存储线性表的数据元素。用一维数组实现。 //线性表的顺序存储的结构#define MAXSIZE 20typedef int ElemType;typedef struct{ ElemType data[MAXSIZE]; int
2012-11-28 17:49:57 556
转载 最大熵模型
不要把所有信息放到一个篮子里,降低风险。知道各种各样但又不完全确定的信息,用一个统一的模型将这些信息综合起来。——将风险降到最小,保留全部的不确定性,让熵最大。对一个随机事件概率分布进行预测时,预测应满足全部已知条件,而对未知情况不做任何主观假设。在这种情况下,概率分布最均匀,预测风险最小。因为这时概率分布的信息熵最大,这种模型叫“最大熵模型”。最大熵模型应用于:计算量不太大的NLP问
2012-11-28 14:47:47 1706
转载 搜索引擎反作弊
作弊的本质是:在网页排名信号中,加入噪音,反作弊的关键是,去除噪音。 早期作弊方法:重复关键词,卖链接。 针对商业相关的搜索,采用一套 抗干扰 强的搜索算法。出链向量间余弦距离几乎为1(卖链接)。作弊网站需要相互链接,形成一个Clique,互联网大图中有一些Clique,用图论知识解决。 具体:http://blog.csdn.net/malefactor/arti
2012-11-27 18:11:07 710
转载 信息指纹
信息指纹可以理解为 将一段信息(文字,图片,音频,视频等)随机地 映射到 一个多维二进制空间中的一个点(一个二进制数字)。随机函数做得好,不同信息对应的点不会重合,这些二进制的数字为原来信息所具有的独一无二的指纹。 用来提高存储空间,节约查找时间的。信息指纹 有 网址的消重性,密码性。它具有不可逆性,即无法根据信息指纹推出原有信息。 映射函数为 伪随机数产生器。加密的伪随机数产
2012-11-26 15:15:51 1253 1
转载 给定查询的网页综合排名
给定查询,有关网页的综合排名=网页排名(PageRank)*相关性(TF-IDF) 网页质量对于一个特定的查询,搜索结果的排名取决于两组信息,关于网页的质量和这个查询与每个网页的相关性信息。PageRank算法--衡量网页质量简单说,民主表决。一个网页被很多其他网页链接,它的认可度高,可靠性高,计算排名时,需要给予较大的权重。二维矩阵相乘的问题,用迭代方法解决。Bi
2012-11-22 09:29:56 498
转载 关于头文件
自定义头文件通常放在使用该头文件的源文件所在的目录中,并使用 #include "MyHead.h" 来包含。 头文件是不编译的,因为C语言编译过程之前有个预编译过程。在这个过程中用头文件中的内容替换源文件中“#include”命令,所以在编译器看来,没有头文件,只有源文件。预编译过程还包括条件编译。 头文件为了防止被重复包含,通常的格式是: #ifndef _MYHEAD_H_
2012-11-20 11:29:11 538
转载 数据结构 时间复杂度
程序设计=数据结构+算法 数据结构分为 逻辑结构(面向问题) 和 物理结构(面向计算机)。1、逻辑结构:数据元素之间的相互关系。 集合结构、线性结构(一对一)、树形结构(一对多)、图形结构(多对多)2、物理结构:数据的逻辑结构在计算机中的存储形式。 顺序存储结构: 数据元素放在地址连续的存储单元里,数据间的逻辑关系和物理关系是一致的。
2012-11-20 09:59:31 2610
转载 图论与网络爬虫
广度优先搜索 Breadth-First Search (BFS)深度优先搜索 Depth-First Search (DFS) 网络爬虫:从任何一个网页出发,用图的遍历算法,自动访问每个网页并把它们存储起来,完成这个功能的程序叫Web Crawlers. 构建网络爬虫的工程要点:1、在有限时间里最多的爬下最重要的网页: 重要:首页。再扩大爬虫,从首页扩展
2012-11-19 18:31:52 1517
转载 数学公式中一对双竖线
x和y是向量,有时候会用双竖线,来和数的绝对值区分,||X-Y||就是向量作差之后各分量的平方和的开根号。——————————————————————————————————一般的双竖线是指一个度量空间的元素X和Y之间的度量具体来讲最早接触到的度量空间有实数集,n维欧式空间等再比如x和y是实数的时候,|x-y|绝对值就是上面所说的度量,即是点与点的距离
2012-11-19 16:03:17 46460 1
转载 如何建立索引
本文节选自《这就是搜索引擎:核心技术详解》第三章3.4建立索引 正如前述章节所述,索引结构如果建立好了,可以增加搜索的速度,那么给定一个文档集合,索引是如何建立起来的呢?建立索引的方式有很多种,本节叙述比较实用的三种建立索引的方法。 3.4.1两遍文档遍历法(2-Pass In-Memory Inversion) 顾名思义,此种方法
2012-11-13 21:06:54 602
转载 索引基础
本文节选自《这就是搜索引擎:核心技术详解》第三章 本节通过引入简单实例,介绍与搜索引擎索引有关的一些基础概念,了解这些基础概念对于后续深入了解索引的工作机制非常重要。 3.1.1单词—文档矩阵 单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,打对勾的位
2012-11-13 20:36:01 438
转载 前向算法
前向算法(Forward Algorithm)计算观察序列的概率(Finding the probability of an observed sequence)1.穷举搜索( Exhaustive search for solution) 给定隐马尔科夫模型,也就是在模型参数(pi, A, B)已知的情况下,我们想找到观察序列的概率。还是考虑天气这个例子,我们有一个用来描述天气及与
2012-11-12 19:54:04 1282
转载 #include<>
预处理器发现 #include 指令后,就会寻找后跟的文件名并把这个文件的内容包含到当前文件中。被包含文件中的文本将替换源代码文件中的#include 指令, 就像你把被包含文件中的全部内容键入到源文件中的这个位置一样。#include //字符处理 #include //定义错误码 #include //浮点数处理 #include //文件输入/输出 #include //
2012-11-08 21:33:20 623
转载 GMM高斯混合模型
Gaussian Mixture Model (GMM)。事实上,GMM 和 k-means 很像,不过 GMM 是学习出一些概率密度函数来(所以 GMM 除了用在clustering 集群上之外,还经常被用于 density estimation 密度估计),简单地说,k-means 的结果是每个数据点被 分配 到其中某一个 cluster 了,而 GMM 则给出这些数据点被 分配到每个
2012-11-08 16:49:55 1594 1
转载 维特比算法
用于自然语言处理的解码。是 动态规划算法, 解码算法,解决 篱笆网络有向图的最短路径问题。凡是隐马尔科夫模型描述问题都可以用它来解码。 寻找最可能的隐藏状态序列(Finding most probable sequence of hidden states) 对于一个特殊的隐马尔科夫模型(HMM)及一个相应的观察序列,我们常常希望能找到生成此序列最可能的隐藏状态序列。1.
2012-11-07 17:58:07 1554
转载 隐马尔可夫模型--3
马尔科夫链:想象成一台机器,随机选择一个状态为初始状态,按照马尔科夫链规则随机选择后续状态,运行一段时间后,会产生一个状态序列:s1,s2,s3……st.看到这个序列的人,可以输出某个状态mi出现的次数#(mi),以及从mi转换到mj的次数#(mi,mj),从而估计出从mi到mj的转移概率#(mi,mj)/#(mi)。 隐含马尔科夫模型是马尔科夫链的一个扩展:任一时刻t的状态st都
2012-11-07 17:45:20 827
转载 perl进程终止函数die/warn/exit/kill
函数名:die 调用语法:die (message); 解说:终止程序并向STDERR输出错误信息。message可以为字符串或列表。如果最后一个参数不包含换行符,则程序文件名和行号也被输出。例子:die ("Cannot open input file"); 结果输出:Cannot open input file at myprog line 6. 函数名:w
2012-11-05 16:43:43 10995
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人