2015年11月_寂寞灵魂

原创 2015-11-30 20:59:08之自力更生

今日逛知乎，看到了学ML的步骤，看Ng的公开课，看PRML和《The Elements of Statistical Learning》，用《机器学习实战》和weka练手，做Kaggle和KDD Cup、天池平台。*******************************************************************************************

2015-11-30 21:04:49 394

原创基于统计的分词技术

- 1. N元文法模型1.1 N元文法介绍基于统计的方法理解一句话，就是要从一句话的每个位置全部候选字中选择一个最可能的句子，我们假定一个字只与前面的N-1个字有关，若没有N-1个音就补以空音。这种N-1阶的马尔可夫模型，在语音理解中又特别地被称为N元文法模型(N-gram Model)。 N元统计计算语言模型的思想是：一个单词的出现与其上下文环境中出现的单词序列密切

2015-11-30 18:29:28 8725

原创 2015-11-30 16:39:31

感觉进了鬼坑，掉进了地狱，沾上彷徨，身旁都是些小鬼，而自己渺小无依。

2015-11-30 16:40:27 455

按照自己的计划，了解完WEB安全之后应当转向逆向的学习了，这是自己之前很久就想学——却一直没付诸行动的目标，今天，重新拾起这个自己心中始终放不下的方向吧！在开始真正接触逆向之前，首先要具备一些汇编的基础知识，之所以说汇编的基础知识，是说搞逆向没有必要精通汇编，因为并不是要求我们成为汇编程序员；学习汇编的道路晦涩难懂，最好的方式是在学习逆向破解的过程中去根据实际需要去学习，就像学电脑都是从玩游戏开始

2015-11-30 15:41:20 468

原创 Java.IO note

Java.IOFile Class:Path Interface and Files Class is part of NIO System.AutoCloseable, Closeable, Flushable InterfaceCloseable, Flushable is part of java.ioAutoCloseable is part of java.lang

2015-11-29 20:45:20 476

转载 Segmentation Reading List

Segmentation Reading ListWord Segmentation and Word discovery Reference & Comment1Ogawa, Yasushi; Matsuda, Toru 1999 Overlapping statistical segmentation

2015-11-26 20:26:29 676

转载中文分词之HMM模型详解

关于HMM模型的介绍，网上的资料已经烂大街，但是大部分都是在背书背公式，本文在此针对HMM模型在中文分词中的应用，讲讲实现原理。尽可能的撇开公式，撇开推导。结合实际开源代码作为例子，争取做到雅俗共赏，童叟无欺。没有公式，就没有伤害。模型介绍第一次听说HMM模型是从李开复的博文论文中听说的：李开复1988年的博士论文发表了第一个基于隐马尔科夫模型（HMM）的语

2015-11-26 16:14:00 3462 4

原创《基于 N Gram 的无词典中文分词算法》 n-gram读感

二元的叫bigram，三元的叫trigram。以bigram来说：(1) Average(k) > Average(k 一1) ＆Average(k) > A verage(k + 1) ；或者(2 ) A verage(k) > = t， t是词边界阀值《基于 N Gram 的无词典中文分词算法》读来看，每次要选四个字：fre(co ) > fre(D J ) ? fr

2015-11-26 15:50:14 2787

转载常用分词算法笔记

常用统计语言模型，包括了N元文法统计模型（N-gram Model）、隐马尔科夫模型（Hidden Markov Model，简称HMM）、最大熵模型（Maximum Entropy Model）。N-Gram这是一种依赖于上下文环境的词的概率分布的统计计算语言模型。假定，在一个语句中第i个词出现的概率，条件依赖于它前面的N-1个词，即将一个词的上下文定义为该词前面出现的N-1个词，这

2015-11-26 15:18:39 951

原创杭电acm2114

#include int main() { __int64 n, ans; while(~scanf("%l64d", &n)) { n %= 10000; ans = (n*n*(n+1)*(n+1)) / 4; printf("%04d\n", ans%10000); } return 0;}

2015-11-26 14:14:52 615

原创杭电acm2113

#include int main() { int n, i, ans, flag=1; while(~scanf("%d", &n)) { ans = 0; while(n) { i = n % 10; if(i%2==0) ans += i; n /= 10; } if(flag) { printf("%d\n", ans);

2015-11-26 13:54:34 454

原创 2015-11-26 13:38:38

我要稳稳的幸福，不管未来怎样的，时光总会，有一些启示。

2015-11-26 13:38:16 305

转载开源分词软件

由于中文文本词与词之间没有像英文那样有空格分隔，因此很多时候中文文本操作都涉及切词，这里整理了一些中文分词工具。一般来说用CRF实现的分词工具的处理速度是比较慢的（训练CRF模型是非常耗时的），但是精度高，涉及CRF的分词工具有CRF++，Stanford分词工具。 Bakeoff是一个国际中文处理比赛，有多个语料，所以每个语料都有排名。只有部分优秀的Bakeoff工具开源。

2015-11-23 15:48:15 1512

转载如何提高阅读源代码的效率

如何提高阅读源代码的效率记得在开源流行之前，我看过的代码紧限于所参与的项目，能有个几万行就不错哩。后来很多优秀开源项目都相继蹦出来了，阅读的代码量那叫一个大呀！不得不看。我现在掉到android这个大坑里，每天都要看很多源代码。以前做过J2EE，看Struts2、Lucene、OSWorkflow、iText等项目的源码，动机有三：文档不足、找问题的原因、好奇。当时有个项目用到了D

2015-11-23 14:35:08 333

转载 jar命令成功完成 java -jar 命令却提示“没有主清单属性”！

打好jar包之后还需要更改清单文件的.打开生成的jar,里面有一个MANIFEST.MF的文件把它打开.然后有一行Main-Class，没有就加上。如：Manifest-Version: 1.0Main-Class: 类的全地址要在后面加上你的主main class文件.比如你的文件是HelloWrold.java编译后就是HelloWrold.cla

2015-11-23 14:02:23 435

转载 2015-11-23 12:50:55

中文分词最短路分词N-最短路分词CRF分词索引分词极速词典分词用户自定义词典词性标注命名实体识别中国人名识别音译人名识别日本人名识别地名识别实体机构名识别关键词提取TextRank关键词提取

2015-11-23 12:50:25 658

转载 An Implementation of Double-Array Trie

ContentsWhat is Trie?What Does It Take to Implement a Trie?Tripple-Array TrieDouble-Array TrieSuffix CompressionKey InsertionKey DeletionDouble-Array Pool AllocationAn ImplementationDownloadOther

2015-11-22 22:20:52 403

原创 nlp

分词、词性标注、命名实体识别、关键词提取、自动摘要、拼音、简繁转换、文本推荐

2015-11-22 20:25:21 458

原创机器学习第三节

指数分布族：伯努利分布、高斯分布、多项式分布、泊松分布、伽马分布。伯努利分布用来对0-1问题进行建模多项式分布用来对有K个结果的事件进行建模泊松分布通常是用来对计数的过程进行建模伽马分布和指数分布考虑的是正数的分布，经常被用来对间隔进行建模 β分布和迪利克雷分布通常用来对小数进行建模，是对概率分布进行建模的

2015-11-22 15:21:09 328

转载 sufficient statistic

充分统计量编辑统计量是样本数据的函数，在统计学中，T(x) 为未知分布P的参数θ的充分统计量，当且仅当T(x)可以提供θ的全部信息，也就是说，没有统计量可以提供关于θ的额外信息。统计量是实际上是一种对数据分布的压缩，在样本加工为统计量的过程中，样本中所含的信息可能有所损失，若在将样本加工为统计量时，信息毫无损失，则称此统计量为充分统计量。比如，在正态分布中, 我们可以用两

2015-11-22 12:59:49 831

原创 2015-11-19 22:34:54

今天晚上不想看书，就写了一晚上Java，期间主要是在协调各个文件之间的调用。软件工程的知识：重要。

2015-11-19 22:35:52 331

转载 Null pointer access: The variable number can only be null at this location。错误解决

int[] number = null;这句不对，数组必须初始化才行，比如 int[] number = new int[3];别的类似。久不写Java，手生了。

2015-11-19 21:49:18 4055

转载 top conference in AI

AI里面大家比较公认的top conference. 下面同分的按字母序排列. IJCAI (1+): AI最好的综合性会议, 1969年开始, 每两年开一次, 奇数年开. 因为AI实在太大, 所以虽然每届基本上能录100多篇（现在已经到200多篇了），但分到每个领域就没几篇了，象machine learning、computer vision这么大的领域每次大概也就10篇左右, 所以

2015-11-19 17:55:46 641

转载 UnboundLocalError: local variable 'XXX' referenced before assignment

这个问题很囧，在外面定义了一个变量 xxx ，然后在python的一个函数里面引用这个变量，并改变它的值，结果报错local variable 'xxx' referenced before assignment，代码如下： view plaincopy to clipboardprint?xxx = 23 def PrintFileName(st

2015-11-17 22:30:42 13979

转载三种素数筛选方法

第一种：剔除2 3 4 5 6 ... ... 的倍数在i从2开始的增一变化过程中，剔除i的倍数即j*i（j是大于等于2的自然数，j的上限是问题规模M）为了减少重复步骤，可以每当i递增到等于第一个没有被剔除的（素）数时再剔除该数的倍数，重复上述过程至i到达问题规模m的平方根+1需要说明的三个问题：假设循环到第n个数，如果该数没有被剔除，那么该数不能是前边所有数的倍数，该

2015-11-16 14:15:32 489

原创线性表

线性表(List)线性表的顺序存储结构：用一段地址连续的存储单元依次存储在任意时刻，List的长度 List的存读时间复杂度为O(1)；插入删除时间复杂度为O(n)。线性表的链式存储结构：List的存读时间复杂度为O(n)；插入删除时间复杂度为O(1)。静态链表：用数组描述的链表

2015-11-15 20:40:06 313

原创数据结构笔记

数据结构绪论：逻辑结构：是指数据对象中数据元素之间的相互关系。集合结构：集合结构中的元素除了桶属于一个集合外，没有其他关系。线性结构：一对一的关系树形结构：一对多的层次关系图形结构：多对多的关系物理结构：是指数据的逻辑结构在计算机中的存储形式顺序存储结构：存放在地址连续的存储空间里。链式存储结构：存放在任意的存储单元里抽象

2015-11-15 19:49:51 322

原创杭电acm1398

母函数，见杭电acm1028#include int main() { int n, i, j, k; int ans[301], temp[301]; while(~scanf("%d", &n) && n) { for(i=0; i<=n; i++) { ans[i] = 1; temp[i] = 0; } for(i=2; i*i<=n; i++)

2015-11-15 15:15:11 427

原创杭电acm1028

母函数（Generating function)在数学中，某个序列的母函数(Generating function，又称生成函数)是一种形式幂级数，其每一项的系数可以提供关于这个序列的信息。使用母函数解决问题的方法称为母函数方法。母函数可分为很多种，包括普通母函数、指数母函数、L级数、贝尔级数和狄利克雷级数。对每个序列都可以写出以上每个类型的一个母函数。构造母函数的目的一般是为

2015-11-15 15:02:02 1588 1

原创杭电acm1087

dp问题: ans[i] = max(ans[j]) + d[i]，循环条件：d[j] #include #include int main() { int d[1001], ans[1001]; int n, i, j, flag, rst; while(~scanf("%d", &n) && n) { for(i=0; i<n; i++) scanf("%d",

2015-11-15 13:49:14 1209

转载 K-Means

1.算法简述分类是指分类器（classifier）根据已标注类别的训练集，通过训练可以对未知类别的样本进行分类。分类被称为监督学习（supervised learning）。如果训练集的样本没有标注类别，那么就需要用到聚类。聚类是把相似的样本聚成一类，这种相似性通常以距离来度量。聚类被称为无监督学习（unspervised learning）。k-means

2015-11-14 21:27:36 418

转载 java打开文件对话框

package com.test.filetest;import java.io.File;import javax.swing.JFileChooser;import javax.swing.filechooser.FileFilter;public class FileTest { public static void main(String[] args)

2015-11-14 19:43:03 1201

转载 about HashMap

今天试了一下HahsMap，采用如下形似定义（这个下面是用了csdn的一位同仁的文章，仅作为讲解参考，请见谅）HashMap map=new HashMap(); map.put(1,"a"); map.put(2,"b"); map.put(1,"aq"); System.out.println(map.get(0)); System.out.println(map

2015-11-14 18:45:21 309

转载 Java中关于HashMap的使用和遍历

1：使用HashMap的一个简单例子[java] view plaincopypackage com.pb.collection; import java.util.HashMap; import java.util.Iterator; import java.util.Set; import java.util.Ma

2015-11-14 15:00:30 420

原创杭电acm1071

#include #include using namespace std;int main(){ int t; double x1,y1,x2,y2,x3,y3,a,k,s; cin>>t; while(t--) { cin>>x1>>y1>>x2>>y2>>x3>>y3; a=(y2-y1)/((x2-x1)*(x2-x1));

2015-11-14 13:35:05 618

转载杭电acm1054

/*002 【题意】给定一棵树，标记一节点，则与该节点所连的边都被标记，问最少需要标记多少个节点使得所有边都被标记；003 或者说给定一个树型城堡，在交叉路口放一个士兵，则与该路口相连的路都被守住，004 问最少需要派遣多少个士兵来守住这个城堡005 006 dp[father].yes= （ min(dp[child].yes,dp[

2015-11-14 13:05:34 320

转载杭电acm1054

/*002 【题意】给定一棵树，标记一节点，则与该节点所连的边都被标记，问最少需要标记多少个节点使得所有边都被标记；003 或者说给定一个树型城堡，在交叉路口放一个士兵，则与该路口相连的路都被守住，004 问最少需要派遣多少个士兵来守住这个城堡005 006 dp[father].yes= （ min(dp[child].yes,dp[

2015-11-14 13:04:47 471

原创杭电acm2108

凸多边形可以有以下三种定义：一、没有任何一个内角是优角（Reflexive Angle）的多边形。二、如果把一个多边形的所有边中，有一条边向两方无限延长成为一直线时，其他各边都在此直线的同旁，那么这个多边形就叫做凸多边形。三、凸多边形是一个内部为凸集的简单多边形。简单多边形的下列性质与其凸性等价：1、所有内角小于等于180度。2、任意两个顶点间的线段位于多边形的内部或边上。3、多边形内任意两

2015-11-13 19:07:12 849

原创杭电acm2107

#include int main() { long n, i, max, temp; while(~scanf("%d", &n) && n) { i = n - 1; while(n--) { scanf("%ld", &temp); if(n == i) { max = temp; } else if(max < temp) max =

2015-11-13 16:39:10 409

转载网络攻防网站

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。作者：周知日链接：http://www.zhihu.com/question/24740239/answer/28872069来源：知乎DVWA: Damn Vulerable Web ApplicationDVWA - Damn Vulnerable Web Application基于 p

2015-11-09 18:17:49 2610

深入理解计算机系统（3th)随书代码

文本挖掘（英文版）

计算理论试卷答案

Lucene创建与搜索索引

算法导论课程表

空空如也