2016年05月_multiangle

原创 THUCTC源码解读(四)

LiblinearTextClassifier我认为LiblinearTextClassifier是整个分类器中最核心的模块，实现了训练，分类等功能。LiblinearTextClassifier实现的是TextClassifier的接口，实现了TextClassifier中定义的 addTrainingText, train, saveModel, loadModel, classify, sa

2016-05-23 21:15:39 4095 2

原创 THUCTC源码解读(三)

Term类Term也是一个非常简单的类，是文档向量(DocumentVector)的基本组成部分，一个Term表示词典中的一个词。存储的变量只有id和weight, id表示该Term代表的词在词典中的id，而weight表示该词在文档向量中的权重。此外，Term的内部类TermIdComparator还实现了Comparator接口，使得java能够对Term数组进行排序。public cla

2016-05-22 11:53:35 3443 2

原创 THUCTC源码解读(二)

在通过Demo初步了解了THUCTC的用法以后，开始深入探究THUCTC的结构，了解实现方式。只要了解了代码结构，才能了解背后的原理和优化方法，也方便在此基础上做出自己的改进。THUCTC的主要原理首先，会将训练文本进行分词处理，然后进行词频统计，通过统计词频和包含该词的文档频率，利用卡方(Chi-Square)检验来选择出特征词，并以此为依据构造文档向量(DocumentVector)，词向量中的

2016-05-18 21:24:45 3348

原创 THUCTC源码解读(一)

THUCTC（THU Chinese Text Classification）,是由清华大学自然语言处理实验室推出的中文文本分类工具包，能够自动实现用户自定义的文本分类语料的训练、评测、分类功能。THUCTC中选取二字串bigram作为特征单元，特征降维方法为Chi-square，权重计算方法为tfidf，分类模型使用的是LibSVM或LibLinear。THUCTC对于开放领域的长文本具有良好的普

2016-05-16 23:08:52 6967 25

原创 Java学习笔记-流操作

这里主要讲从InputStream继承出来的类和Reader继承出来的类InputStream 抽象类FileInputStream 继承自InputStream, 读写本地文件，按二进制顺序读写字节 FileInputStream(String name) FileInputStream(File file)BufferedInputStream 继承自FileInputStream,

2016-05-15 20:10:39 1024

转载 CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别？

本文转自知乎 https://www.zhihu.com/question/34681168 科研君的回答神经网络技术起源于上世纪五、六十年代，当时叫感知机（perceptron），拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层，在输出层得到分类结果。早期感知机的推动者是Rosenblatt。（扯一个不相关的：由于计算技术的落后，当时感知器传输函数是用线拉动变阻器改变电阻的

2016-05-05 10:43:11 6412 3

原创 tex数学公式和字符表示方法

上下标（1）上标符号为“^”、下标符号为“_” , 例如 : 2^r , a_5（2）可同时输入上下标（注意要先下标再上标）例如 : C_n^m分式(1)简单的可以用单斜杠 / 表示分数线，例如 : 2/3，a/b，a/{b+c}，a^2/(b_2+c)^2 (2)使用 \frac{}{} 第一个{}内放分子，第二个{}内放分母。例如：\frac{1}{1+a^2+a^4+a

2016-05-05 00:24:23 11347 1

原创 CSDN插入公式的方法

CSDN中插入公式的方法由于目前CSDN的 MarkDown 编辑器不支持latex语法，所以想要插入公式，就得老老实实的插入图片。但是呢，由于最近想写的东西公式比较多，因此如果采用生成公式->保存截图->上传图片的流程，肯定得被烦死。我去网上找了找，发现google提供一个服务，就是能够解析latex代码，并返回图片。这个就非常好用了，我们可以把latex代码写进网址里面，并放在img块中，丢

2016-05-03 23:36:35 5034

Multiangle's Notepad