需求拿到的需求是输入n个文本,对文本进行聚类,由于这些输入不能通过历史数据进行训练,所以这个主要就是用无监督学习来解决。kmeans谈到聚类就会想到kmeans,它的核心思想是给定的K值和K个初始质心将样本中每个点都分到距离最近的类簇中,当所有点分配完后根据每个类簇的所有点重新计算质心,一般是通过...
2017-06-22 20:13:12
阅读(1819)
Java的Boolean类主要作用就是对基本类型boolean进行封装,提供了一些处理boolean类型的方法,比如String类型和boolean类型的转换。主要实现源码如下:public final class Boolean implements java.io.Serializable, ...
2017-06-16 19:07:38
阅读(1641)
Java的基本数据类型
类型
意义
取值 boolean
布尔值
true或false
byte
8位有符号整型
-128~127
short
16位有符号整型
-pow(2,15)~pow(2,15)-1
int
32位有符号整型
-po...
2017-06-08 18:27:46
阅读(2000)
在Java中,引用分为强引用、软引用、弱引用和虚引用四种。
强引用,代码中普遍存在的形式,例如常见的普通类new出对象后的引用。GC不会回收强引用的对象。
软引用,软引用对象会在内存溢出异常之前进行回收,也就是说在内存富裕的情况下GC不回收软引用。它可通过SoftReference类实现。
弱引用...
2017-06-04 18:32:02
阅读(908)
需求使用监督学习对历史数据训练生成模型,用于预测文本的类别。样本清洗主要将重复的数据删除掉,将错误无效的数据纠正或删除,并检查数据的一致性等。比如我认为长度小于少于13的数据是无效的遂将之删掉。def writeFile(text):
file_object = open('result.t...
2017-05-30 20:21:58
阅读(1850)
Java内置的注解以及自定义一个注解大家都比较熟悉的了,现在来看看注解实现的原理,看看Java的体系下面是如何对注解的支持的。在讨论前先看一个自定义注解的例子,自定义实现这样一个注解:通过@Test向某类注入一个字符串,通过@TestMethod向某个方法注入一个字符串。① 创建Test注解,声明...
2017-05-24 19:16:51
阅读(3446)
SBTSimple Build Tool. A interactive build tool.installwindows可直接到http://www.scala-sbt.org/0.13/docs/Installing-sbt-on-Windows.html下载安装,但网速实在是太慢,我这是直接...
2017-05-24 14:24:19
阅读(815)
多层神经网络前面说到的感知器是一种最基础的神经网络,他只有输入层和输出层,感知器只能处理线性可分问题,而对于非线性问题就需要多层神经网络。一般如下图所示,有多个层,比如左边的包含输入层、隐层和输出层,而右边的则包含了两个隐层。每层的神经元与下一神经元全互连,同层之间的神经元不会相连,输入层用于接收...
2017-05-18 19:23:22
阅读(1415)
热词简单地理解热词就是某文档中出现频率高的且非无用的词语。朴素的想法文档由若干词(term)组成,那么很朴素的想法就可以认为文档中某个term出现的次数越多就越可能是高频热词。这样的统计策略就叫Term Frequency,即TF。干扰项
标点符号,一般标点符号没有价值,去掉。
停词,停词没有特别...
2017-05-15 20:09:40
阅读(1220)
在多核时代,如何提高CPU的性能成为了一个永恒的话题,而这个话题的讨论主要就是如何定义一个高性能的内存模型,内存模型用于定义处理器的各层缓存与共享内存的同步机制及线程和内存交互的规则。 Java的世界也有属于它自己的内存模型,Java内存模型,即Java Memory Model,简称JMM。由于...
2017-05-15 09:31:28
阅读(1871)
whyIKAnalyzer是个很不错的中文分词工具,但已经不维护了,但只支持低版本的Lucene,为了兼容Lucene6.x版本,这里是小改动了一些然后放到github上,方便有需要的人使用。也对Lucene源码比较熟,后面有必要再自己重新建个分词工具。changes
Lucene的Analyze...
2017-05-09 18:39:40
阅读(2222)
感知器在讲神经网络前先说说感知器,感知器是一种二分类的线性分类模型,输出值取-1或1。感知器是最基础的神经网络,理解好感知器对后面的各种神经网络模型是很有帮助的。如下图,
它可以有多个输入$(x_1,x_2,...x_n)$,每个输入对应有一个权重$(w_1,w_2...w_n)$,除此之外还有...
2017-05-04 14:37:48
阅读(1117)
核心思想KNN算法假设给定的训练集中的实例都已经分好类了,对于新的实例,根据离它最近的k个训练实例的类别来预测它的类别。即这k个实例大多数属于某个类别则该实例就属于某个类别。比如k为5,离新实例a最近的5个样本的情况为,3个样本属于A类,1个样本属于B类,一个样本属于C类,那么新实例a属于A类。常...
2017-04-28 20:36:25
阅读(1074)
Logistic回归在用线性模型进行回归训练时,有时需要根据这个线性模型进行分类,则要找到一个单调可微的用于分类的函数将线性回归模型的预测值关联起来。这时就要用到逻辑回归,之前看吴军博士的《数学之美》中说腾讯和谷歌广告都有使用logistics回归算法。如下图,可以清晰看到线性回归和逻辑回归的关系...
2017-04-22 20:05:56
阅读(5416)
线性回归线性回归是很常见的一种回归,线性回归可以用来预测或者分类,主要解决线性问题。相关知识可看“相关阅读”。主要思想在TensorFlow中进行线性回归处理重点是将样本和样本特征矩阵化。单特征线性回归单特征回归模型为:y=wx+by = wx + b构建模型X = tf.placeholder(...
2017-04-16 12:02:53
阅读(3468)
朴素贝叶斯分类所有贝叶斯分类都是基于贝叶斯定理,朴素贝叶斯分类是贝叶斯分类中运用广泛简单的一种,另外,它还基于特征条件独立假设。贝叶斯定理贝叶斯定理是计算条件概率的公式,条件概率即是事件B发生的前提下事件A发生的概率,记作$P(A|B)$,叫做事件B发生的情况下A的条件概率。公式为:$P(B|A)...
2017-04-11 19:59:32
阅读(2197)
朴素想法用户输入一个查询query,query由若干词(term)组成,文档也由若干词(term)组成。那么怎么评判查询和文档的相关性的高低。很朴素简单的想法就是文档中包含的term与查询query中包含的term,两者越多相同的则说明越相关。比如query为”animal cat”,文档一内容为...
2017-04-01 19:47:11
阅读(2572)
githubhttps://github.com/sea-boat/net-reactornet-reactorit’s a simple and easy net framework with nio mode written by javareactor modelhow-tojust sim...
2017-03-30 08:48:54
阅读(2471)
方向导数如图,对于函数f(x,y),函数的增量与pp’两点距离之比在p’沿l趋于p时,则为函数在点p沿l方向的方向导数。记为$\frac{\partial f}{\partial l} = \lim_{\rho \rightarrow 0} \frac{f(x+\Delta x,y+\Delta ...
2017-03-26 20:40:40
阅读(1302)
“我认为没有任何一种对人类心灵的冲击能够比得上一位发明家亲眼看到自己的脑力创作变成现实” ———尼古拉·特斯拉思想的力量,一个人拥有独立的思想是多么的重要。奇点奇点是未来的某个技术变革节奏相当快的时期,人类的生活将不可避免地因此发生变化,它所带来影响是如此的深远。它将人类信...
2017-03-23 18:45:19
阅读(836)