Sogou的语料库的问题 最近在训练HMM模型的时候,发现一句话的结果很奇怪,原文“据北京中原地产...”。可是我的模型输出结果是“聚北京中原....”。程序写错了? 不应该呀,模型调试过好多次应该没有这么严重的问题呀。 于是开始从数据下手,发现二元的“聚北”和三元的“聚北京”出现次数异常的高,远远超过“据北京”的频率,这样导致最终的模型计算概率的结果出现问题。再返回到最原始的抽取数据去看看到底什么内容是“
关于Heritrix的Extractor中文乱码 关键字:Heritrix 中文 乱码 GB2312 Extractor 继承从org.archive.crawler.extractor.Extractor的子类,在extract方法中可以从参数CrawlURI中取出要解析的内容。 curi.getHttpRecorder().getReplayCharSequence.toString()
使用继续完善前人写的文章:使用ICTCLAS JAVA版(ictclas4j)进行中文分词 一、ICTCLAS的介绍中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词
eclipse中配置heritrix的过程----heritrix-1.14.4 将heritrix-1.14.4-src和heritrix-1.14.4两个压缩文件解压<?xml:namespace prefix = o ns ="urn:schemas-microsoft-com:office:office" />配置过程:1、新建Java Project工程在Eclipse中新建一个Java Project工程(注意:一定是Java Project的工
STL容器的效率比较 1.介绍顺序存储容器 : string、vector、list、deque 关联存储容器:map底层采用的是树型结构,多数使用平衡二叉树实现,查找某一值是常数时间,遍历起来效果也不错, 只是每次插入值的时候,会重新构成底层的平衡二叉树,效率有一定影响. set 和map都是无序的保存元素,只能通过它提供的接口对里面的元素进行访问 set:集合, 用来判断某一个元素是不是在一个组
C++ 虚析构函数 联编就是将模块或者函数合并在一起生成可执行代码的处理过程,同时对每个模块或者函数调用分配内存地址,并且对外部访问也分配正确的内存地址,它是计算机程序彼此关联的过程。按照联编所进行的阶段不同,可分为两种不同的联编方法:静态联编和动态联编。静态联编是指在编译阶段就将函数实现和函数调用关联起来,因此静态联编也叫早绑定,在编译阶段就必须了解所有的函数或模块执行所需要检测的信息,它对函数的选择是基于指向
POJ2352——树状数组的应用 StarsTime Limit: 1000MSMemory Limit: 65536KTotal Submissions: 21050Accepted: 9172DescriptionAstronomers often examine starmaps where stars are represent
写给想学Linux系统的人 linux太难用了!(一通鼠标点击,进入/etc)学习linux,你忘记windows的思维方式了吗?怎么安装软件 阿?那一堆文件是干什么的阿?学习linux,你还在浮躁吗?进入linux,随便按了几下.赶紧重启进入win学习linux,你用心了吗?…….首先,我想引用一下别人说过的一句话:除非在过去的十年你一直生活在山洞里,否则你一定听说过linux.是的,现
分享8年开发经验,浅谈个人发展经历,明确自己发展方向 在中国有很多人都认为IT行为是吃青春饭的,如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的,在下从事.NET及JAVA方面的开发的也有8年的时间了,在这里在下想凭借自己的亲身经历,与大家一起探讨一下。 明确入行的目的 很多人干IT这一行都冲着“收入高”这一点的,因为只要学会一点HTML, DIV+CSS,要做一个页面开发人员并不是一件难事,而且做一个页面开发人员更容
某公司面试题——怎样优化乘法? 某公司面试题——怎样优化乘法?要求算法尽量高效。#include using namespace std; //获得一个2的指数这个数的幂int getMi(int num){//不是2的指数则直接返回0if(num & (num -1) != 0)return 0;int times = 0;while (num >>= 1){times++;}r
POJ-1150(求排列数P(n,m)中最后一个非0的数字) 1.如何求出n阶乘中质因数x(比如说5)出现的次数? int get(int m, int n)//计算n!中质因子m的出现次数 { if (n == 0) return 0; return (n / m) + get(m, n / m); } 解析:求n!中m出现的次数。那么n可以分解为即为求q的值。例如:假
硬盘安装CentOS6.2详解 硬盘安装CentOS6.2详解 由于项目需要,最近要用到Linux了。于是乎,在现有的XP系统上手到擒来装了个VMware。然后下载了一个CentOS6.2的LiveCD版本。装上虚拟机后,发现运行起来巨慢,相信巨多同学们也发现了这个问题,而且用VM怎么也显得咱不专业啊。 这是前话,于是我打算装双系统了。虽然之前我用光盘装过双系统,整个过程一气呵成,操作简单,成果绚丽。但是
POJ1753——Flip Game Flip GameTime Limit: 1000MS Memory Limit: 65536K Total Submissions: 4863 Accepted: 1983DescriptionFlip game is played on a rectangular 4x4 field with two-sided pieces placed on each of i
C++中的格式化输出 #include //不要用iostream.h ,会出现好多问题#include // io 流控制头文件, 主要是一些操纵用法如setw(int n),setprecision(int n)//,setbase(int n),setfill(char c)的.▲setw(n)用法: 通俗地讲就是预设宽度如 cout结果是:(空格)(
最小生成树的prim算法贪心正确性的证明 首先,一定有一个最优解包含了权值最小的边e_1(prim的第一步),因为如果不是这样,那么最优的解不包含e_1,把e_1加进去会形成一个环,任意去掉环里比e_1权值大的一条边,这样就构造了更优的一个解,矛盾用归纳法,假设prim的前k步选出来的边e_1,…, e_k是最优解的一部分,用类似的方法证明prim的方法选出的e_k+1 一定也能构造出最优解。
写给想学Linux系统的人 写给想学Linux系统的人 linux太难用了!(一通鼠标点击,进入/etc)学习linux,你忘记windows的思维方式了吗?怎么安装软件 阿?那一堆文件是干什么的阿?学习linux,你还在浮躁吗?进入linux,随便按了几下.赶紧重启进入win学习linux,你用心了吗?…….首先,我想引用一下别人说过的一句话:除非在过去的十年你一直生活在山洞
最小生成树的prim算法 在无向加权图中,n个顶点的最小生成树有n-1条边,这些边使得n个顶点之间可达,且总的代价最小。prim算法是一种贪心算法,将全部的顶点划分为2个集合,每次总在2个集合之间中找最小的一条边,局部最优最终达到全局最优,这正是贪心的思想。具体的描述参见相关书籍:描述从单一顶点开始,普里姆算法按照以下步骤逐步扩大树中所含顶点的数目,直到遍及连通图的所有顶点。1. 输入:一个加权连
最小生成树的kruskal算法 Kruskal算法思想 不同于Prim算法,Kruskal算法是一种按照连通网中边的权值的递增顺序构造最小生成树的算法。假设G=(V,E)是一个具有n个顶点的连通网,T=(U,TE)是G的最小生成树。Kruskal算法的基本思想是令集合U的初值为U=V,即包含有G中全部顶点,集合TE的初值为TE={}。然后,将图G中的边按权值从小到大的顺序依次选取,若选取的边使生成树T不形成回路,
POJ1050 DP To the MaxDescriptionGiven atwo-dimensional array of positive and negative integers, a sub-rectangle is anycontiguous sub-array of size 1*1 or greater located within the whole array. Thesum of a r
httpClient应用 httpClient应用一般的情况下我们都是使用IE或者Navigator浏览器来访问一个WEB服务器,用来浏览页面查看信息或者提交一些数据等等。所访问的这些页面有的仅仅是一些普通的页面,有的需要用户登录后方可使用,或者需要认证以及是一些通过加密方式传输,例如HTTPS。目前我们使用的浏览器处理这些情况都不会构成问题。不过你可能在某些时候需要通过程序来访问这样的一些页面,比如从别人的网