机器学习之神经网络

多层神经网络前面说到的感知器是一种最基础的神经网络,他只有输入层和输出层,感知器只能处理线性可分问题,而对于非线性问题就需要多层神经网络。一般如下图所示,有多个层,比如左边的包含输入层、隐层和输出层,而右边的则包含了两个隐层。每层的神经元与下一神经元全互连,同层之间的神经元不会相连,输入层用于接收输入,经过隐层加工后再到输出层加工并输出。如何训练多层网络对于多层网络我们常用误差逆传播算法来训练,而我...
阅读(931) 评论(0)

如何对热词进行提取

热词简单地理解热词就是某文档中出现频率高的且非无用的词语。朴素的想法文档由若干词(term)组成,那么很朴素的想法就可以认为文档中某个term出现的次数越多就越可能是高频热词。这样的统计策略就叫Term Frequency,即TF。干扰项 标点符号,一般标点符号没有价值,去掉。 停词,停词没有特别的意义,一般也要去掉,比如“是”,“的”,”the”,”that”,”this”等。 词权重现在可能还存...
阅读(680) 评论(0)

Java内存模型

在多核时代,如何提高CPU的性能成为了一个永恒的话题,而这个话题的讨论主要就是如何定义一个高性能的内存模型,内存模型用于定义处理器的各层缓存与共享内存的同步机制及线程和内存交互的规则。 Java的世界也有属于它自己的内存模型,Java内存模型,即Java Memory Model,简称JMM。由于Java被定义成一种跨平台的语言,所以在内存的描述上面也要能是跨平台的,Java虚拟机试图定义一种统一的...
阅读(1428) 评论(2)

方便Lucene高版本使用IKAnalyzer分词

whyIKAnalyzer是个很不错的中文分词工具,但已经不维护了,但只支持低版本的Lucene,为了兼容Lucene6.x版本,这里是小改动了一些然后放到github上,方便有需要的人使用。也对Lucene源码比较熟,后面有必要再自己重新建个分词工具。changes Lucene的Analyzer抽象类有变。 Lucene的Tokenizer抽象类有变。 Lucene的BooleanQuery有变...
阅读(780) 评论(2)

机器学习之感知器

感知器在讲神经网络前先说说感知器,感知器是一种二分类的线性分类模型,输出值取-1或1。感知器是最基础的神经网络,理解好感知器对后面的各种神经网络模型是很有帮助的。如下图, 它可以有多个输入$(x_1,x_2,...x_n)$,每个输入对应有一个权重$(w_1,w_2...w_n)$,除此之外还有一个偏置项$w_0$。则输出为o(x) = \left\{\begin{matrix} 1, & if...
阅读(633) 评论(0)

新书预售《Tomcat内核设计剖析》

鄙人的新书《Tomcat内核设计剖析》已经在京东预售了,有需要的朋友可以通过文末的连接进行预定。感谢各位朋友。本书特色? 深入剖析Tomcat的每一个设计要点,使读者知其然,更知其所以然; 拒绝没营养的直接贴代码分析,而是升华到对Tomcat设计思想的剖析; 通篇采用大量插图来辅助文字解释,降低读者的理解门槛; 层次分明,脉络清晰,由浅入深,循序渐进,确保知识讲解的连贯性和普适性。 通过本书能快速建...
阅读(3613) 评论(12)

机器学习之k近邻

核心思想KNN算法假设给定的训练集中的实例都已经分好类了,对于新的实例,根据离它最近的k个训练实例的类别来预测它的类别。即这k个实例大多数属于某个类别则该实例就属于某个类别。比如k为5,离新实例a最近的5个样本的情况为,3个样本属于A类,1个样本属于B类,一个样本属于C类,那么新实例a属于A类。常用距离 欧氏距离 d(x,y)=∑ni=1(xi−yi)2−−−−−−−−−−−−√d(x,y) =...
阅读(811) 评论(0)

TensorFlow训练Logistic回归

Logistic回归在用线性模型进行回归训练时,有时需要根据这个线性模型进行分类,则要找到一个单调可微的用于分类的函数将线性回归模型的预测值关联起来。这时就要用到逻辑回归,之前看吴军博士的《数学之美》中说腾讯和谷歌广告都有使用logistics回归算法。如下图,可以清晰看到线性回归和逻辑回归的关系,一个线性方程被逻辑方程归一化后就成了逻辑回归。.Logistic模型对于二分类,输出y∈{0,1}y...
阅读(3336) 评论(0)

TensorFlow训练单特征和多特征的线性回归

线性回归线性回归是很常见的一种回归,线性回归可以用来预测或者分类,主要解决线性问题。相关知识可看“相关阅读”。主要思想在TensorFlow中进行线性回归处理重点是将样本和样本特征矩阵化。单特征线性回归单特征回归模型为:y=wx+by = wx + b构建模型X = tf.placeholder(tf.float32, [None, 1]) w = tf.Variable(tf.zeros([1,...
阅读(1697) 评论(0)

机器学习之朴素贝叶斯分类

朴素贝叶斯分类所有贝叶斯分类都是基于贝叶斯定理,朴素贝叶斯分类是贝叶斯分类中运用广泛简单的一种,另外,它还基于特征条件独立假设。贝叶斯定理贝叶斯定理是计算条件概率的公式,条件概率即是事件B发生的前提下事件A发生的概率,记作$P(A|B)$,叫做事件B发生的情况下A的条件概率。公式为:$P(B|A) = \frac{P(A|B)P(B)}{P(A)}$公式大致推导: 如图,有$P(A|B) = \f...
阅读(1695) 评论(0)

全文搜索怎么给查询语句与文档相关性打分

朴素想法用户输入一个查询query,query由若干词(term)组成,文档也由若干词(term)组成。那么怎么评判查询和文档的相关性的高低。很朴素简单的想法就是文档中包含的term与查询query中包含的term,两者越多相同的则说明越相关。比如query为”animal cat”,文档一内容为”cat dog bird animal”,文档二内容为”cat dog bird tiger”,则认为...
阅读(2171) 评论(0)

开源一个简易轻量的reactor网络框架

githubhttps://github.com/sea-boat/net-reactornet-reactorit’s a simple and easy net framework with nio mode written by javareactor modelhow-tojust simply like:public class MyHandler implements Handler {...
阅读(2094) 评论(1)

机器学习之梯度下降法

方向导数如图,对于函数f(x,y),函数的增量与pp’两点距离之比在p’沿l趋于p时,则为函数在点p沿l方向的方向导数。记为$\frac{\partial f}{\partial l} = \lim_{\rho \rightarrow 0} \frac{f(x+\Delta x,y+\Delta y)-f(x,y)}{\rho } $,其中$\rho=\sqrt{(\Delta x)^{2} + (...
阅读(923) 评论(0)

《奇点临近》奇点和六大纪元

“我认为没有任何一种对人类心灵的冲击能够比得上一位发明家亲眼看到自己的脑力创作变成现实” ———尼古拉·特斯拉思想的力量,一个人拥有独立的思想是多么的重要。奇点奇点是未来的某个技术变革节奏相当快的时期,人类的生活将不可避免地因此发生变化,它所带来影响是如此的深远。它将人类信仰转变为声明能理解的意义,将事物模式本身转变为人类生命的循环。奇点思维下会对过去发生的事情的重要性重新审...
阅读(489) 评论(0)

[置顶] 机器学习的监督学习在研究什么

什么是监督学习简单来说,监督学习是对给定的输入输出样本进行学习并建立一个模型,该模型能对任意输入做出好的输出预测。 监督学习核心思想 所有可能的模型函数的集合称为假设空间,$H=\left \{ f|Y=f(X) \right \}$。 对于所有的模型函数集合,可能不知道是该用用逻辑回归模型、或贝叶斯模型、或神经网络模型还是用支持向量机模型。这个过程通常是一个不断迭代的过程,只有在不断地尝试比较才...
阅读(2154) 评论(0)

设计一个智能客服系统

背景:最近在设计一个公司的智能客服系统,通过对现有人工客服语料作为样本,通过训练样本完成整个QA过程或业务办理过程。整体思路 AliceBot负责闲聊,这里用了开源的语料,也可以添加语料到DB,基于AIML。 AbilityBot主要负责公司业务上的咨询和办理,它提供了不同的能力接口,供外系统交互。 predict模块用于预测响应。 train模块用于训练客服对话样本。 语音转换由第三方语音识别服务...
阅读(3176) 评论(0)

机器学习之层次聚类

层次聚类聚类是将样本进行归类形成K个簇,层次聚类是其中的一种方法。它将数据组成一棵聚类树,过程可以是凝聚形式或分裂形式。核心思想凝聚是一开始将每个样本当做一个聚类,接着通过计算将距离最近的两个聚类合并,成为新聚类,每次合并聚类总数减少一个,不断循环合并操作,直到所有聚类合并成一个聚类或当聚类数量到达某预定值或当聚类直接距离达到某阀值后停止合并。而分裂则与凝聚相反,一开始将所有样本当做一个聚类,每次分...
阅读(1515) 评论(0)

k-means聚类算法

聚类聚类主要内容是将样本进行归类,同种类别的样本放到一起,所有样本最终会形成K个簇,它属于无监督学习。核心思想根据给定的K值和K个初始质心将样本中每个点都分到距离最近的类簇中,当所有点分配完后根据每个类簇的所有点重新计算质心,一般是通过平均值计算,然后再将每个点分到距离最近的新类簇中,不断循环此操作,直到质心不再变化或达到一定的迭代次数。数学上可以证明k-means是收敛的。 伪代码随机选择k个质...
阅读(2051) 评论(0)

线性回归之最小二乘法

线性回归线性回归是很常见的一种回归,线性回归可以用来预测或者分类,主要解决线性问题。最小二乘法线性回归过程主要解决的就是如何通过样本来获取最佳的拟合线。最常用的方法便是最小二乘法,它是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。代数推导: 假设拟合直线为y=ax+by=ax+b 对任意样本点(xi,yi)(x_i,y_i) 误差为e=yi−(axi+b)e=y_i-(ax_i+...
阅读(934) 评论(0)

使用哈希算法将字符串映射到数组中

需求将不同字符串映射到对应数组,数组不够时自动成倍扩容,比如有一个数组String[4],现在准备将不同的string映射到String[4]上,str5时会自动扩容并重新打散。str1-->String[3] str2-->String[0] str3-->String[2] str4-->String[1]方案 先使用哈希运算,比如用murmurhash3_x86_32算法得到一个32位的值a。...
阅读(815) 评论(0)
290条 共15页首页 上一页 1 2 3 4 5 ... 下一页 尾页
    打赏作者

    赞作者(*^__^*)



    如果您觉得作者写的文章有帮助到您,您可以打赏作者一瓶汽水(*^__^*)

    作者

    笔名:seaboat 汪洋之舟

    github:https://github.com/sea-boat

    微信:



    公众号:

    个人资料
    • 访问:865717次
    • 积分:11999
    • 等级:
    • 排名:第1329名
    • 原创:284篇
    • 转载:5篇
    • 译文:1篇
    • 评论:316条
    博客专栏