- 博客(8)
- 收藏
- 关注
原创 THUCTC源码解读(四)
LiblinearTextClassifier我认为LiblinearTextClassifier是整个分类器中最核心的模块,实现了训练,分类等功能。LiblinearTextClassifier实现的是TextClassifier的接口,实现了TextClassifier中定义的 addTrainingText, train, saveModel, loadModel, classify, sa
2016-05-23 21:15:39 4095 2
原创 THUCTC源码解读(三)
Term类Term也是一个非常简单的类,是文档向量(DocumentVector)的基本组成部分,一个Term表示词典中的一个词。 存储的变量只有id和weight, id表示该Term代表的词在词典中的id,而weight表示该词在文档向量中的权重。此外,Term的内部类TermIdComparator还实现了Comparator接口,使得java能够对Term数组进行排序。public cla
2016-05-22 11:53:35 3443 2
原创 THUCTC源码解读(二)
在通过Demo初步了解了THUCTC的用法以后,开始深入探究THUCTC的结构,了解实现方式。只要了解了代码结构,才能了解背后的原理和优化方法,也方便在此基础上做出自己的改进。THUCTC的主要原理首先,会将训练文本进行分词处理,然后进行词频统计,通过统计词频和包含该词的文档频率,利用卡方(Chi-Square)检验来选择出特征词,并以此为依据构造文档向量(DocumentVector),词向量中的
2016-05-18 21:24:45 3348
原创 THUCTC源码解读(一)
THUCTC(THU Chinese Text Classification),是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动实现用户自定义的文本分类语料的训练、评测、分类功能。THUCTC中选取二字串bigram作为特征单元,特征降维方法为Chi-square,权重计算方法为tfidf,分类模型使用的是LibSVM或LibLinear。THUCTC对于开放领域的长文本具有良好的普
2016-05-16 23:08:52 6967 25
原创 Java学习笔记-流操作
这里主要讲从InputStream继承出来的类和Reader继承出来的类InputStream 抽象类FileInputStream 继承自InputStream, 读写本地文件,按二进制顺序读写字节 FileInputStream(String name) FileInputStream(File file)BufferedInputStream 继承自FileInputStream,
2016-05-15 20:10:39 1024
转载 CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别?
本文转自知乎 https://www.zhihu.com/question/34681168 科研君 的回答神经网络技术起源于上世纪五、六十年代,当时叫感知机(perceptron),拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层,在输出层得到分类结果。早期感知机的推动者是Rosenblatt。(扯一个不相关的:由于计算技术的落后,当时感知器传输函数是用线拉动变阻器改变电阻的
2016-05-05 10:43:11 6412 3
原创 tex数学公式和字符表示方法
上下标(1)上标符号为“^”、下标符号为“_” , 例如 : 2^r , a_5(2)可同时输入上下标(注意要先下标再上标) 例如 : C_n^m分式(1)简单的可以用单斜杠 / 表示分数线, 例如 : 2/3,a/b,a/{b+c},a^2/(b_2+c)^2 (2)使用 \frac{}{} 第一个{}内放分子,第二个{}内放分母。 例如:\frac{1}{1+a^2+a^4+a
2016-05-05 00:24:23 11347 1
原创 CSDN插入公式的方法
CSDN中插入公式的方法由于目前CSDN的 MarkDown 编辑器不支持latex语法,所以想要插入公式,就得老老实实的插入图片。但是呢,由于最近想写的东西公式比较多,因此如果采用 生成公式->保存截图->上传图片 的流程,肯定得被烦死。我去网上找了找,发现google提供一个服务,就是能够解析latex代码,并返回图片。这个就非常好用了,我们可以把latex代码写进网址里面,并放在img块中,丢
2016-05-03 23:36:35 5034
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人