自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(281)
  • 资源 (5)
  • 收藏
  • 关注

转载 DSSM算法-计算文本相似度

转载请注明出处: http://blog.csdn.net/u013074302/article/details/76422551导语在NLP领域,语义相似度的计算一直是个难题:搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义相似度上...

2018-03-19 20:38:09 20417 3

转载 Bag-of-words模型-可用于计算文本及图片相似度

引言本blog之前已经写了四篇关于SIFT的文章,请参考九、图像特征提取与匹配之SIFT算法,九(续)、sift算法的编译与实现,九(再续)、教你一步一步用c语言实现sift算法、上,及九(再续)、教你一步一步用c语言实现sift算法、下。上述这4篇文章对SIFT算法的原理和C语言实现都做了详细介绍,用SIFT做图像匹配效果不错。现在考虑更为高层的应用,将SIFT算法应用于目标识别:发现图像中包含...

2018-03-19 20:34:11 1104

转载 向量空间模型(VSM)--用于计算文本相似度

向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d);…;tn, ωn(d)),其中ti(i=1,2, …,n)为一列互不雷同的词条项,ωi(d)为ti在d中的权值, 一般被定义为ti在d中出现频率tfi(d)的函数,即 。 在信息检索中常用的词条权值计算方法为 TF-IDF 函数,其中N为所有文档的数目,ni为含有词条ti的文档数目。TF-IDF公式有很多变种,下面是一个常用的TF-...

2018-03-14 20:11:42 7945

转载 文本相似度-bm25算法原理及实现

原理BM25算法,通常用来作搜索相关性平分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。BM25算法的一般性公式如下:其中,Q表示Query,qi表示Q解析之后的一个语素(对中文而言,我们可以把对Query的分词作为语素分析,每个词看成语素...

2018-03-14 19:46:31 4138 4

原创 Python如何从内存中找回源代码

首先,项目必须在运行,代码必须驻留在内存中安装GDB(pyrasite需要)apt-getupdate&&apt-getinstallgdb安装pyrasite,它让你能够跟正在运行的进程通信pipinstallpyrasite安装uncomplyle6,它能让你获取内存中存在的对象的源代码pipinstalluncompyle...

2018-01-29 18:02:25 1370

转载 自动机,状态机,有限自动机,有限状态机,有限状态自动机,非确定下有限状态自动,确定性有限状态自动机的区别于联系

http://blog.csdn.net/c601097836/article/details/47040703

2018-01-16 10:37:14 260

转载 Linux下文件开头的feff的问题

由于linux下vi无法直接写入中文注释,所以只能在windows下将写好注释的代码传到linux服务器上,但是问题也就出现了,我在windows下用的是Notepad++这款编辑器(感觉还挺不错,有语法高亮识别)编辑源代码的,加过注释后上传到linux上无论什么语言环境(LANG)都是乱码,然后看了一下Notepad++的设置,发现默认为ANSI格式,于是就转换为UTF-8格式编码(因为linu

2018-01-12 09:50:50 19017

原创 在shell脚本中使用*正则的问题

如下脚本#!/bin/bashls /data/pic/*如果/data/pic目录下的文件过多,那么上述正则*号会扩展出所有满足条件的文件作为ls的参数类似于执行ls /data/pic/f1 /data/pic/f2 /data/pic/f3 /data/pic/f4 ....这样在脚本中,会导致ls命令的参数过多而报错/bin/ls: Argument list too long但是

2018-01-02 11:44:30 1015 2

转载 Tensorflow练习2-Word2vec模型计算词语相似度

#-*- coding: utf8 -*-# Copyright 2015 The TensorFlow Authors. All Rights Reserved.## Licensed under the Apache License, Version 2.0 (the "License");# you may not use this file except in compliance

2017-12-14 14:46:18 2976 2

转载 Tensorflow练习1-对评论进行分类

#-*- coding: utf-8 -*-import numpy as npimport tensorflow as tfimport randomimport picklefrom collections import Counterimport pdb import nltkfrom nltk.tokenize import word_tokenize"""'I'm s

2017-12-14 14:32:44 553

原创 服务自动拉起,定时日志清理,数据统计的shell脚本

首先是自动拉起的脚本:monitorProcess.sh#!/bin/bash############################Ver 2.5.1 2008/12/10##########################. /etc/profileWORK_DIR=`pwd` #获取当前目录cd $WORK_DIR[ ! -d log ] && mkdir log

2017-12-13 11:38:14 1910

原创 Python的多进程锁的使用

很多时候,我们需要在多个进程中同时写一个文件,如果不加锁机制,就会导致写文件错乱这个时候,我们可以使用multiprocessing.Lock()我一开始是这样使用的:import multiprocessinglock = multiprocessing.Lock()class MatchProcess(multiprocessing.Process): def ...

2017-12-07 17:26:38 11214

转载 Python的文件锁使用

在python编程中,少不了对文件的操作,那么在并发情况下,多个进程如何对同一文件进行读写操作呢?这就要用到文件锁了。关于文件锁的的知识,需要参考UNIX环境编程,这里只简要介绍概念。python的文件锁目前使用的是fcntl这个库,它实际上为 Unix上的ioctl,flock和fcntl 函数提供了一个接口。python通过调用fcntl.flock()函数对文件加锁。对fcntl.flock

2017-12-07 11:28:42 3334

转载 拉格朗日对偶性

1.原始问题假设是定义在上的连续可微函数(为什么要求连续可微呢,后面再说,这里不用多想),考虑约束最优化问题:称为约束最优化问题的原始问题。现在如果不考虑约束条件,原始问题就是:因为假设其连续可微,利用高中的知识,对求导数,然后令导数为0,就可解出最优解,很easy. 那么,问题来了(呵呵。。。),偏偏有约束条件,好烦啊,要是能想办法把约束条件去掉就好了,bingo! 拉格朗日函数就是干这个的。 

2017-12-01 09:47:56 196

原创 基于Huffman树的CBOW模型的理解

上面是从如下地址中截取的内容:https://www.zybuluo.com/Dounm/note/591752#mjx-eqn-eq4下面说下我对它的理解还是以“今天  我   和  小明  去   北京   玩” 这句为例输入层: “小明”的前后三个词向量,即首先要把这些词全部表示成向量投影层: 将这写词的向量求和,得到的结果就是:将投影层的向量输入到哈夫曼树中哈夫曼树怎么来的? 将语料库中词

2017-11-30 13:49:30 2033

原创 基于Huffman树的CBOW模型的理解

2017-11-30 11:27:39 190

原创 基于Huffman树的CBOW模型的理解

2017-11-30 11:25:49 225

原创 Word2vec之CBOW模型和Skip-gram模型形象解释

Word2vec中两个重要模型是:CBOW和Skip-gram模型这里主要讲下我本人对CBOW模型的理解,这是主要是举个例子简化下首先说下CBOW的三层结构:输入层,投影层(中间层),输出层假设语料库有10个词: 【今天,我,你,他,小明,玩,北京,去,和,好】现在有这样一句话:今天我和小明去北京玩很显然,对这个句子分词后应该是:今天 我 和 小明 去 北京 玩对于小明而言,选择他的前

2017-11-29 19:15:20 16523 6

转载 Word2Vec模型

给个原文地址把:https://www.zybuluo.com/Dounm/note/591752#mjx-eqn-eq4

2017-11-29 17:26:44 255

转载 softmax回归

给个原文链接吧:http://www.voidcn.com/article/p-mcelqtjn-mb.html

2017-11-29 15:55:47 263

转载 哈夫曼树

一,什么是哈夫曼树什么是哈夫曼树呢?哈夫曼树是一种带权路径长度最短的二叉树,也称为最优二叉树。下面用一幅图来说明。它们的带权路径长度分别为:图a: WPL=5*2+7*2+2*2+13*2=54图b: WPL=5*3+2*3+7*2+13*1=48可见,图b的带权路径长度较小,我们可以证明图b就是哈夫曼树(也称为最优二叉树)。回到顶部二,如何构建哈夫曼树一般可以按下面步骤构建:1,将所有左,右子树

2017-11-29 15:00:35 317

原创 使用argparse解析命令行参数

一个例子代码:文件名为:argparse_test.pyimport argparseparser = argparse.ArgumentParser()parser.add_argument('--para1', type=str, default='value1')parser.add_argument('--para2', type=str, default='value2')pa

2017-11-28 17:36:55 487

原创 Centos系统基于Docker安装tensorflow

要基于Docker安装tensorflow,当然首先要安装Docker了,下面先说安装Docker的步骤1.  首先卸载电脑上可能存在的老的版本,如果没有安装过可以不执行$ sudo yum remove docker \ docker-common \ docker-selinux \ d

2017-11-22 10:36:01 1301

转载 机器学习中的梯度下降法

在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1. 梯度    在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,简称gr

2017-11-20 09:20:43 365

原创 expect以及rsync实现远程连接自动推送密码

有的时候,我们ssh登陆远程机器,或者scp从远程机器上拷贝文件,都要手动输入远程机器的 密码,如果我们的脚本要自动指定这些命令,如何实现自动推送密码?这就要用到except和spawn这里我用到了两个文件1. 文件1: upload_to_sohu.exp#/bin/bash/expect #特定标识#先预定义一些变量,比如远程机器的用户名,密码,ip,文件路径set user your

2017-11-17 16:22:28 2155

转载 iotop命令监控磁盘io

iotop命令是一个用来监视磁盘I/O使用状况的top类工具。iotop具有与top相似的UI,其中包括PID、用户、I/O、进程等相关信息。Linux下的IO统计工具如iostat,nmon等大多数是只能统计到per设备的读写情况,如果你想知道每个进程是如何使用IO的就比较麻烦,使用iotop命令可以很方便的查看。iotop使用Python语言编写而成,要求Python2.5(及以上版本)和Li

2017-09-28 16:15:55 1030

转载 网络监视工具nethogs命令

有很多适用于Linux系统的开源网络监视工具。比如说,你可以用命令iftop来检查带宽使用情况。netstat用来查看接口统计报告,还有top监控系统当前运行进程。但是如果你想要找一个能够按进程实时统计网络带宽利用率的工具,那么NetHogs值得一看。NetHogs是一个开源的命令行工具(类似于Linux的top命令),用来按进程或程序实时统计网络带宽使用率。来自NetHogs项目网站

2017-09-28 16:06:19 589

转载 iptraf:一个实用的TCP/UDP网络监控工具

iptraf是一个基于ncurses的IP局域网监控器,用来生成包括TCP信息、UDP计数、ICMP和OSPF信息、以太网负载信息、节点状态信息、IP校验和错误等等统计数据。它基于ncurses的用户界面可以使用户免于记忆繁琐的命令行开关。特征IP流量监控器,用来显示你的网络中的IP流量变化信息。包括TCP标识信息、包以及字节计数,ICMP细节,OSPF包类型。简单的和详细的接口统计数据,包括IP

2017-09-28 15:52:54 2457

转载 Linux网络实时流量监测工具iftop的安装使用

概述:网络管理是基础运维中一个很重要的工作,在看似平静的网络运行中,其实暗流汹涌,要保证业务系统稳定运行,网络运维者必须要了解网络的流量状态、各个网段的使用情形,带宽的利用率、网络是否存在瓶颈等,同时,当网络发生故障时,必须能够及时发现问题,迅速定位问题,进而解决问题,这就需要一些网络监测工具的辅助,本节将介绍一款小巧但功能很强大的网络实时流量监测工具iftop。一、iftop概述iftop是Li

2017-09-28 15:39:25 665

原创 Java开发Maven插件

这里需要两个工程,一个是插件工程,另外一个是插件测试工程首先介绍下插件工程:新建一个web项目,名称为myMavenPlugin,pom文件对该工程的相关配置信息为(注意这是关于项目自身的信息):org.apache.maven.plugins my-maven-plugin 1.0.1-SNAPSHOT maven-plugin my-maven-plugin http:/

2017-09-14 16:07:35 435

原创 Java进行spark计算

下载安装spark:可以从如下地址下载最新版本的spark:https://spark.apache.org/downloads.html这个下载下来后是个tgz的压缩包,解压后spark环境就安装好了或者从github上下载:#git clone git://github.com/apache/spark.git安装好spark环境后,我们就可以通过Java,Python,Scala等语言的ap

2017-09-06 16:57:54 2878

原创 IntelliJ Idea中使用Java8新特性lambda表达式

环境: 环境变量JAVA_HOME配置jdk1.8idea配置支持lambda:    File -> Project Structure -> Modules ->  Language level, 选择: 8-Lambdas, type annotations etc.    File -> Project Structure -> Project  ->  Project language

2017-09-06 16:12:33 20653 1

转载 B树、B-树、B+树、B*树

B树       即二叉搜索树:       1.所有非叶子结点至多拥有两个儿子(Left和Right);       2.所有结点存储一个关键字;       3.非叶子结点的左指针指向小于其关键字的子树,右指针指向大于其关键字的子树;       如:              B树的搜索,从根结点开始,如果查询的关键字与结点的关键字相等,那么就命中;否则,如果查询关键字比结点关键字小,就进入

2017-09-05 19:03:19 250

转载 Spring AOP中declare-parents为特定的类增加新的功能

如果有这样一个需求,为一个已知的API添加一个新的功能。由于是已知的API,我们不能修改其类,只能通过外部包装。但是如果通过之前的AOP前置或后置通知,又不太合理,最简单的办法就是实现某个我们自定义的接口,这个接口包含了想要添加的方法。但是JAVA不是一门动态的语言,无法再编译后动态添加新的功能,这个时候就可以使用 aop:declare-parents 来做了.如果是可以改写的类,直接实现自定义

2017-08-30 09:46:18 1821

原创 python编写hadoop代码

这是一个只有mapper的任务代码:主要有两个文件,一个是shell脚本文件,主要是执行hadoop命令,一个是用python编写的mapper脚本文件首先看下shell脚本文件,#cat   get_lemma_fenci.sh#/bin/bash. /etc/profileif [ -f ~/.bash_profile ]then . ~/.bash_pro

2017-08-25 12:08:38 1276

转载 线上问题排查技巧一

有时候有很多问题只有在线上或者预发环境才能发现,而线上又不能Debug,所以线上问题定位就只能看日志,系统状态和Dump线程,本文只是简单的介绍一些常用的工具,帮助定位线上问题。问题定位1: 首先使用TOP命令查看每个进程的情况,显示如下:top - 22:27:25 up 463 days, 12:46, 1 user, load average: 11.80, 12

2017-08-25 11:29:29 1250

转载 Top实战小技巧

终端执行top命令之后【也可后接一些选项,比如top -p 1只监控init进程,top -u root只显示root运行进程等等】,可以敲击如下按键,实现不同功能:1(数字1):列出所有的单个CPU负载情况z:top显示颜色P[大写]:按CPU占用高低顺序列出程序M[大写]:按内存占用高低顺序列出程序x:类似高亮显示,在z显示模式下效果才会更明显如下效

2017-08-25 11:11:11 3772

原创 pstree命令的用法(查看进程树)

pstree命令是用于查看进程树之间的关系,即哪个进程是父进程,哪个是子进程,可以清楚的看出来是谁创建了谁#pstree几个重要的参数:-A: 各进程树之间的连接以ASCII码字符来连接-U:各进程树之间的连接以utf8字符来连接,某些终端可能会有错误-p:同时列出每个进程的PID-u: 同时列出每个进程的所属账号名称:例子:#pstree  -upsystem

2017-08-25 11:03:34 23602

原创 URLEncoder.encode的默认编码问题

今天要实现的一个功能是在页面上上传文件到后台,文件是txt格式,每行是一个url,后台读取后,对路径中的中文进行url编码如下是我的代码:Pattern chinesePattern = Pattern.compile("[\\u4e00-\\u9fa5]+"); MultipartFile file = null; try { bo

2017-08-16 16:12:40 8061

转载 Python多线程和多进程编程

原文地址:https://tracholar.github.io/wiki/python/python-multiprocessing-tutorial.html简介早已进入多核时代的计算机,怎能不用多线程和多进程进行加速。我在使用python的过程中,用到过几次多线程和多进程加速,觉得充分利用CPU节省时间是一种很有“延长生命”的感觉。现将网络上看到的python的多

2017-08-10 10:00:18 930

mysql-5.1.69.tar.gz

mysql-5.1.69.tar.gz mysql数据库源码。

2013-09-10

httpd-2.2.20.tar.gz

httpd-2.2.20.tar.gz,apache服务器源码

2013-09-10

apache+php+mysql的嵌入式移植详细过程

这篇文档是apache+php+mysql的嵌入式移植详细过程。是本人整个移植过程的经验总结,包含了移植过程中出现的问题的解决方法

2013-09-10

arm-linux-gcc-4.4.3.tar.gz

arm-linux-gcc-4.4.3.tar.gz

2013-09-07

apache+sqlite+php的嵌入式移植

这里面包含了apache,php,sqlite详细的嵌入式移植步骤。

2013-09-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除