自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

转载 win10 + 独显 + Anaconda3 + tensorflow_gpu1.13 安装教程(跑bert模型)

这里面有很多坑,最大的坑是发现各方面都装好了结果报错Loaded runtime CuDNN library: 7.3.1 but source was compiled with: 7.4.1,这是由于最新的tensorflow1.13需要用Cudnn7.4.1编译。这个问题,StackOverflow上有人问到,但是目前依然未有人给出解决办法,下文会详述。1. 去nvid...

2019-05-09 12:15:00 359

转载 word2vec 和 doc2vec 词向量表示

Word2Vec 词向量的稠密表达形式(无标签语料库训练)Word2vec中要到两个重要的模型,CBOW连续词袋模型和Skip-gram模型。两个模型都包含三层:输入层,投影层,输出层。1.Skip-Gram神经网络模型(跳过一些词)skip-gram模型的输入是一个单词wI,它的输出是wI的上下文wO,1,...,wO,C,上下文的窗口大小为C。举个例子,这里有个句子...

2018-09-06 21:42:00 252

转载 Global Vectors forWord Representation

参考论文:GloVe: Global Vectors forWord Representation参考博客:https://blog.csdn.net/coderTC/article/details/73864097理解GloVe模型:glove 模型类似于word2vec模型,都是一种词的全局向量的表示方法。模型目标:进行词的向量化表示,使得向量之间尽可能多地蕴含...

2018-09-06 21:41:00 124

转载 Latent Semantic Analysis(LSA/ LSI)原理简介

LSA的工作原理: How Latent Semantic Analysis WorksLSA被广泛用于文献检索,文本分类,垃圾邮件过滤,语言识别,模式检索以及文章评估自动化等场景。LSA其中一个目的是解决如通过搜索词/关键词(search words)定位出相关文章。如何通过对比单词来定位文章是一个难点,因为我们正在要做的是对比单词背后的语义。潜在语义分析的基本原理是将文章和单...

2018-09-03 17:46:00 194

转载 目前最快速的多线程Kmeans算法,java实现

目前最快速Kmeans算法,并由java实现!面对很大的K值表现依然很好。代码地址: https://github.com/Jethu1/fastKmeans#1.这是一个由java实现的的,多线程Kmeans聚类算法;#2.在聚类的选种阶段分别实现了Kmeans++算法和NIPS 2016的文章“Fast and Probably Good Seedings for k-M...

2018-07-26 20:23:00 304

转载 UndertowServer+SpringMVC+Thymeleaf模板引擎构建轻量级的web项目

这两周需要写一个页面来请求另一个服务中的接口,服务器采用了超轻量级的undertow,模板引擎采用的是Thymeleaf,在寻找页面资源位置这个地方难住了我。下面分享一下,这方面的代码。SpringWebConfig方面:public class SpringWebConfig extends WebMvcConfigurerAdapter { private static...

2018-03-23 21:11:00 373

转载 中文分词之逆向最大匹配算法结合时间位置进行分词

之前基于Lucene分词组件探索了按时间位置进行中文分词的算法,中文分词方面采用了最大逆向匹配算法,由于时间信息保存在一个List中,当每个词被切割出来时,其时间信息将会同时按序提取。将分词结果写入倒排索引的词表,时间信息写入到倒排表中的offset属性中。停词表和词汇表都保存在HashSet中。逆向最大匹配法算法如下所示:逆向匹配法思想与正向一样,只是从右向...

2018-03-15 10:50:00 169

转载 Lucene 索引与检索架构图

在基于单词的检索方法中,同义词会降低检索算法的召回率(Recall),而多义词的存在会降低检索系统的准确率(Precision)。转载于:https://www.cnblogs.com/jetHu/p/8510479.html...

2018-03-05 18:07:00 200

转载 搜索算法

搜索主要有以下几种算法:(引用刘超觉先博客)枚举算法:也即列举问题的所有状态从而寻找符合问题的解的方法。适合用于状态较少,比较简单的问题上。广度优先搜索:从初始点开始,根据规则展开第一层节点,并检查目标节点是否在这些节点上,若没有,再将所有的第一层的节点逐一展开,得到第二层节点,如没有,则扩展下去,直到发现目标节点为止。比较适合求最少步骤或最短...

2018-03-05 10:54:00 373

转载 聚类

1.聚类定义:聚类算法将一系列文档聚团成多个子集或簇(cluster),其目标是建立类内紧密、类间分散的多个簇。换句话说,聚类的结果要求簇内的文档之间要尽可能相似,而簇间的文档之间则要尽可能不相似。  聚类是无监督学习(unsupervised learning)的一种最普遍的形式。无监督也意味着不存在对文档进行类别标注的人类专家。聚类中,数据的分布和组成结构决定最后...

2018-03-04 09:48:00 299

转载 动态规划--国王挖金矿问题

子问题:国王需要根据两个大臣的答案以及第9座金矿的信息才能判断出最多能够开采出多少金子。为了解决自己面临的问题,他需要给别人制造另外两个问题,这两个问题就是子问题。思考动态规划的第一点----最优子结构:国王相信,只要他的两个大臣能够回答出正确的答案(对于考虑能够开采出的金子数,最多的也就是最优的同时也就是正确的),再...

2018-03-04 09:38:00 596

转载 回溯算法

回溯法解题的关键要素确定了问题的解空间结构后,回溯法将从开始结点(根结点)出发,以深度优先的方式搜索整个解空间。开始结点成为活结点,同时也成为扩展结点。在当前的扩展结点处,向纵深方向搜索并移至一个新结点,这个新结点就成为一个新的活结点,并成为当前的扩展结点。如果在当前的扩展结点处不能再向纵深方向移动,则当前的扩展结点就成为死结点。此时应往回移动(回溯)至最近的一个活结点处,并...

2018-03-04 09:37:00 139

转载 再谈排序与图论算法

排序1.主存能放下的数据进行排序称为内部排序,反之称为外部排序(磁盘上)。2.任何进行交换相邻元素进行排序的算法均需要O(N2)的复杂度,任何进行比较的排序算法至少需要O(N*log(N))的算法复杂度。3.堆排序和归并排序的时间复杂度平均和最坏均为O(N*log(N))4.Java中执行一次对象比较是比较昂贵的,移动则是相对节省的,因此归并排序是java的默认泛型排序算法。...

2018-03-04 09:35:00 61

转载 Hash表

1.哈希表最重要的作用是实现O(1)效率的查找,首先有一个哈希函数确定元素在表中的位置;其次是解决冲突,其实现主要有两种:(1)链地址法:数组+链表(2)探测法(开放地址法,线性、二次):哈希函数为 H[i](x)= (hash(x)+f(i)) mod TableSize 。H[i](x)为表中位置, f(i)为解决冲突的函数 f(0)=0,线性探测f(i)=i。2....

2018-03-04 09:33:00 66

转载 B树和TreeSet与TreeMap

1. 此前二叉搜索树相关的内容我们均假设可以把整个数据结构存储在计算机的内存中,但是如果数据量过大时,必须把数据结构放在磁盘上,导致大O模型不在适用。目前计算机处理器每秒至少可以执行5亿条指令,磁盘访问一次需要大概10ms,1s可访问100次左右;这就意味着一次磁盘访问相当于执行50万条指令。所以导致运行时间增长的主要就是因为磁盘访问次数,我们愿意为减少磁盘访问进行大量的计算。但是典型的...

2018-03-04 09:31:00 113

转载 回顾二叉树

二叉树的一些定义:树的高度:节点到页节点的最大长度。树的深度:节点到根节点的长度。树的遍历:总是首先判断节点是否为空,三种递归遍历方式的时间均为O(N)。1.二叉搜索树 左子小于根小于右子,平均深度O(logN),增删改查所需的操作均为O(logN)。 删除操作主要考虑有两个儿子的情况,一般是用其右子树的最小数据代替该节点的数据并递归的删除...

2018-03-04 09:30:00 90

转载 Spring实战第一部分总结

Spring实战第一部分总结第一章 综述1.DI依赖注入让相互协作的组件保持松散耦合,而面向切面编程允许你把遍布应用各处的功能分离出来形成可重用的组件。2.Spring容器负责创建并管理对象(单例),配置并管理他们的整个生命周期...

2018-03-02 22:34:00 81

转载 Lucene6.6添加索引数据时字符个数超限,字符数不能超过BYTE_BLOCK_SIZE=32766

  最近发现Lucene6.6版本添加索引数据字符数超过32766时,出现报错,而Lucene4.6版本中则未出现这一问题,原因如下:概述: 添加索引数据时,对于分词字段,分词后的Term会和BYTE_BLOCK_SIZE比较,若该Term超过BYTE_BLOCK_SIZE,则视为超长Term,不添加到索引中,4.6为了兼容性没有捕捉异常,6.6版本捕捉了该异常。对...

2018-03-01 16:09:00 379

转载 第一章 机器学习基本概念

1.机器学习主要是通过计算机在已有的数据上(经验)产生相应的模型(学习算法),在面临新的情况时,模型能给出相应的判断。所以说机器学习是研究学习算法的学问。2基本术语2.1以西瓜是否成熟为例,(色泽=青绿;根蒂=蜷缩;敲声=浊响)这一条记录称为一个示例或样本sample。样本组成的集合称为数据集;每一个示例包含几个属性,上例中包含三个属性,我们称之为三维,这个示例也可以看成是一个特...

2017-11-18 10:17:00 110

转载 第十至十二章 算法分析--高阶数据结构

1.贪婪算法的第二个应用为 哈夫曼编码 来进行文件压缩。 文件压缩的主要问题是给文件中的所有字符分配能唯一识别的编码(n个比特),如果我们事先知道所有字符出现的频率,把频率最高的放在最上层,频率低的放在左侧最下层,这就是最优编码。2.编码树,所有字符都放在叶节点上,往左走的每条路径代表0,往右走的每条路径代表1,这种数据结构有时候叫做trie树,节点的深度既是需要的比特位数。这种树是...

2017-11-16 21:23:00 72

转载 Lucene4.6至 Lucene6.6的每个迭代对API的改动

由于项目需求,需要将Lucene4.6升级到Lucene6.6,因此我对这之间的所有重要的API改动做了搜集;特别重要的改变加粗显示。Lucene4.7改动:LUCENE-5405: Make ShingleAnalzyerWrapper.getWrappedAnalyzer() public final (gsingers)LUCENE-5395: TheSp...

2017-08-29 09:46:00 216

转载 Lucene4.6查询时完全跳过打分,提高查询效率的实现方式

  由于索引的文件量比较大,而且应用中不需要对文档进行打分,只需要查询出所有满足条件的文档。所以需要跳过打分来提高查询效率。一开始想用ConstantScoreQuery,但是测试发现这个类虽然让所有返回的文档打分都为1.0并没有提高查询效率,因此查资料发现可以用Filter实现跳过打分,其中又以 FieldCacheTermsFilter为最佳,其缓存机制给查询的速度提升极为明显。后面...

2017-08-01 21:57:00 151

转载 Lucene4.6 把时间信息写入倒排索引的Offset偏移量中,并实现按时间位置查询

有个新的技术需求,需要对Lucene4.x的源码进行扩展,把如下的有时间位置的文本写入倒排索引,为此,我扩展了一个TimeTokenizer分词器,在这个分词器里将时间信息写入偏移量Offset中。扩展了一个Filter,最后查询时通过filter把时间信息传进去过滤想要的时间范围之内的结果。  Lucene倒排索引中分好的词有两个偏移量一个是按字符的偏移量(Beg...

2017-08-01 21:44:00 112

转载 Lucene6去掉了Filter但是可以用BooleanQuery实现Filter查询

Lucene在6.0版本之后彻底废除了Filter的使用,采用BooleanQuery来实现Filter的功能,核心代码如下: TermQuery termQuery = new TermQuery(new Term("content","长")); TermQuery termQuery1 = new TermQuery(new Term("content...

2017-08-01 21:30:00 208

转载 Dom4j解析语音数据XML文档(注意ArrayList多次添加对象,会导致覆盖之前的对象)...

今天做的一个用dom4j解析声音文本的xml文档时,我用ArrayList来存储每一个Item的信息,要注意ArrayList多次添加对象,会导致覆盖之前的对象;解决方案是在最后将对象添加入ArrayLis时先new 一个对象,然后将之前那个对象的属性set到新的对象中,之后在加入到 ArrayList,就不会出错了。package parseXML;impo...

2017-07-19 22:42:00 86

转载 Lucene6.6.0 案例与学习路线

之前在学习Lucene这个全文检索工具,为项目搜索引擎的开发打下基础。在这里先分享一下关于Lucene的学习心得。 核心的学习流程是:索引文件格式--索引创建过程--检索流程。1.首先建议参看这篇精简的博文,对Lucene的索引创建和检索功能有个了解。https://www.ibm.com/developerworks/cn/java/j-lo-luce...

2017-06-19 20:53:00 63

转载 netty学习指南

这段时间领导让我熟悉Socket开发,我花了三周时间左右去学习相关的知识,包括Java socket开发,重点学习了netty这个异步非阻塞通信框架。在这里把我学习过程中遇到的有用资料整理了,供大家参考。第一步:Java 原生的Socket网络开发学习重点掌握CS通信的基本原理和那些常用类,以及如何实现通信的过程。这个阶段练习的demo主要有 TCP服务端到客户端,...

2017-06-15 19:47:00 53

转载 MySql数据库学习总结(MySQL入门到精通)

2017.1.24-2.3日(在大兴实验室)1.数据库存储引擎:(1)MyISAM: 访问速度快,对事物完整性没要求,并以访问为主的适合这个(2)InnoDB: 更占磁盘空间,需要进行频繁的更新、删除操作,对事物完整性要求比较高,需要实现并发控制时适合。(3)MEMORY:内存存储数据,访问比较快,但是安全无保障,数据小的时候适合这个。2.创建视图:c...

2017-06-14 20:49:00 223

转载 多线程编程核心技术总结(读周志明书籍的总结)

多线程编程核心技术总结1.Java多线程基本技能1.1进程和线程的概念:进程是独立的程序,线程是在进程中独立运行的子任务。1.2使用多线程1.2.1实现方法:继承Thread类,重写Runnable接口。1.2.2线程安全问题:并发修改公共的实例变量,i++,i--1.3线程Thread类的一些方法:currentThread() 放回代码段正在被那...

2017-06-14 20:47:00 115

转载 Java输入输出流备忘

重要博客:http://blog.csdn.net/hguisu/article/details/7418161Filedir=newFile("\\root");目录Filef1=newFile(dir,"fileOne.txt");文件dir.mkdir();//创建目录f1.createNewF...

2017-06-14 20:46:00 71

转载 netty的Udp单播、组播、广播实例+Java的Udp单播、组播、广播实例

网络上缺乏netty的udp的单播、组播案例,经过一番学习总结之后终于把这两个案例调通,下面把这两个案例的代码放在这里分享一下。首先推荐博文:http://colobu.com/2014/10/21/udp-and-unicast-multicast-broadcast-anycast/#Netty%E4%B8%8E%E5%8D%95%E6%92%AD%EF%BC%8...

2017-06-14 20:33:00 898

转载 Java基础学习知识体系图

转载于:https://www.cnblogs.com/jetHu/p/6445205.html

2017-02-26 17:38:00 73

转载 查找算法总结Java实现

之前对查找算法做的一些简单总结与实现:查找算法时间复杂度:1.二分查找的实现(待补充)public class Test { //循环实现二分查找 public static int binary(int[] array,int value){ int low=0; int high=array.length-1;...

2017-02-26 17:08:00 95

转载 九大排序算法Java实现

之前学习数据结构与算法时花了三天时间整理九大排序算法,并采用Java语言来实现,今天第一次写博客,刚好可以把这些东西从总结的文档中拿出来与大家分享一下,同时作为自己以后的备忘录。 1.排序算法时间复杂度、稳定性分类:2.排序算法问题描述与实现2.1冒泡排序(交换排序-稳定)【问题描述】对于一个int数组,请编写一个冒泡排序算法,对数组元素排序。问题分析:冒泡...

2017-02-26 16:53:00 69

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除