生活不只*眼前的苟且-CSDN博客

转载 DSSM算法-计算文本相似度

转载请注明出处： http://blog.csdn.net/u013074302/article/details/76422551导语在NLP领域，语义相似度的计算一直是个难题：搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义相似度上...

2018-03-19 20:38:09 20417 3

转载 Bag-of-words模型-可用于计算文本及图片相似度

引言本blog之前已经写了四篇关于SIFT的文章，请参考九、图像特征提取与匹配之SIFT算法，九（续）、sift算法的编译与实现，九（再续）、教你一步一步用c语言实现sift算法、上，及九（再续）、教你一步一步用c语言实现sift算法、下。上述这4篇文章对SIFT算法的原理和C语言实现都做了详细介绍，用SIFT做图像匹配效果不错。现在考虑更为高层的应用，将SIFT算法应用于目标识别：发现图像中包含...

2018-03-19 20:34:11 1104

转载向量空间模型(VSM)--用于计算文本相似度

向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d)；…；tn, ωn(d))，其中ti(i=1,2, …,n)为一列互不雷同的词条项，ωi(d)为ti在d中的权值, 一般被定义为ti在d中出现频率tfi(d)的函数，即。在信息检索中常用的词条权值计算方法为 TF-IDF 函数，其中N为所有文档的数目，ni为含有词条ti的文档数目。TF-IDF公式有很多变种，下面是一个常用的TF-...

2018-03-14 20:11:42 7945

转载文本相似度-bm25算法原理及实现

原理BM25算法，通常用来作搜索相关性平分。一句话概况其主要思想：对Query进行语素解析，生成语素qi；然后，对于每个搜索结果D，计算每个语素qi与D的相关性得分，最后，将qi相对于D的相关性得分进行加权求和，从而得到Query与D的相关性得分。BM25算法的一般性公式如下：其中，Q表示Query，qi表示Q解析之后的一个语素（对中文而言，我们可以把对Query的分词作为语素分析，每个词看成语素...

2018-03-14 19:46:31 4138 4

原创 Python如何从内存中找回源代码

首先，项目必须在运行，代码必须驻留在内存中安装GDB（pyrasite需要）apt-getupdate&&apt-getinstallgdb安装pyrasite，它让你能够跟正在运行的进程通信pipinstallpyrasite安装uncomplyle6，它能让你获取内存中存在的对象的源代码pipinstalluncompyle...

2018-01-29 18:02:25 1370

转载自动机，状态机，有限自动机，有限状态机，有限状态自动机，非确定下有限状态自动，确定性有限状态自动机的区别于联系

http://blog.csdn.net/c601097836/article/details/47040703

2018-01-16 10:37:14 260

转载 Linux下文件开头的feff的问题

由于linux下vi无法直接写入中文注释，所以只能在windows下将写好注释的代码传到linux服务器上，但是问题也就出现了，我在windows下用的是Notepad++这款编辑器（感觉还挺不错，有语法高亮识别）编辑源代码的，加过注释后上传到linux上无论什么语言环境（LANG）都是乱码，然后看了一下Notepad++的设置，发现默认为ANSI格式，于是就转换为UTF-8格式编码（因为linu

2018-01-12 09:50:50 19017

原创在shell脚本中使用*正则的问题

如下脚本#!/bin/bashls /data/pic/*如果/data/pic目录下的文件过多，那么上述正则*号会扩展出所有满足条件的文件作为ls的参数类似于执行ls /data/pic/f1 /data/pic/f2 /data/pic/f3 /data/pic/f4 ....这样在脚本中，会导致ls命令的参数过多而报错/bin/ls: Argument list too long但是

2018-01-02 11:44:30 1015 2

转载 Tensorflow练习2-Word2vec模型计算词语相似度

2017-12-14 14:46:18 2976 2

转载 Tensorflow练习1-对评论进行分类

#-*- coding: utf-8 -*-import numpy as npimport tensorflow as tfimport randomimport picklefrom collections import Counterimport pdb import nltkfrom nltk.tokenize import word_tokenize"""'I'm s

2017-12-14 14:32:44 553

原创服务自动拉起，定时日志清理，数据统计的shell脚本

首先是自动拉起的脚本：monitorProcess.sh#!/bin/bash############################Ver 2.5.1 2008/12/10##########################. /etc/profileWORK_DIR=`pwd` #获取当前目录cd $WORK_DIR[ ! -d log ] && mkdir log

2017-12-13 11:38:14 1910

原创 Python的多进程锁的使用

很多时候，我们需要在多个进程中同时写一个文件，如果不加锁机制，就会导致写文件错乱这个时候，我们可以使用multiprocessing.Lock()我一开始是这样使用的：import multiprocessinglock = multiprocessing.Lock()class MatchProcess(multiprocessing.Process): def ...

2017-12-07 17:26:38 11214

转载 Python的文件锁使用

在python编程中，少不了对文件的操作，那么在并发情况下，多个进程如何对同一文件进行读写操作呢？这就要用到文件锁了。关于文件锁的的知识，需要参考UNIX环境编程，这里只简要介绍概念。python的文件锁目前使用的是fcntl这个库，它实际上为 Unix上的ioctl，flock和fcntl 函数提供了一个接口。python通过调用fcntl.flock()函数对文件加锁。对fcntl.flock

2017-12-07 11:28:42 3334

转载拉格朗日对偶性

1.原始问题假设是定义在上的连续可微函数（为什么要求连续可微呢，后面再说，这里不用多想），考虑约束最优化问题：称为约束最优化问题的原始问题。现在如果不考虑约束条件，原始问题就是：因为假设其连续可微，利用高中的知识，对求导数，然后令导数为0，就可解出最优解，很easy. 那么，问题来了（呵呵。。。），偏偏有约束条件，好烦啊，要是能想办法把约束条件去掉就好了，bingo! 拉格朗日函数就是干这个的。

2017-12-01 09:47:56 196

原创基于Huffman树的CBOW模型的理解

上面是从如下地址中截取的内容：https://www.zybuluo.com/Dounm/note/591752#mjx-eqn-eq4下面说下我对它的理解还是以“今天我和小明去北京玩” 这句为例输入层： “小明”的前后三个词向量，即首先要把这些词全部表示成向量投影层：将这写词的向量求和，得到的结果就是：将投影层的向量输入到哈夫曼树中哈夫曼树怎么来的？将语料库中词

2017-11-30 13:49:30 2033

原创基于Huffman树的CBOW模型的理解

2017-11-30 11:27:39 190

原创基于Huffman树的CBOW模型的理解

2017-11-30 11:25:49 225

原创 Word2vec之CBOW模型和Skip-gram模型形象解释

Word2vec中两个重要模型是：CBOW和Skip-gram模型这里主要讲下我本人对CBOW模型的理解，这是主要是举个例子简化下首先说下CBOW的三层结构：输入层，投影层（中间层），输出层假设语料库有10个词: 【今天，我，你，他，小明，玩，北京，去，和，好】现在有这样一句话：今天我和小明去北京玩很显然，对这个句子分词后应该是：今天我和小明去北京玩对于小明而言，选择他的前

2017-11-29 19:15:20 16523 6

转载 Word2Vec模型

给个原文地址把：https://www.zybuluo.com/Dounm/note/591752#mjx-eqn-eq4

2017-11-29 17:26:44 255

转载 softmax回归

给个原文链接吧：http://www.voidcn.com/article/p-mcelqtjn-mb.html

2017-11-29 15:55:47 263

转载哈夫曼树

一，什么是哈夫曼树什么是哈夫曼树呢？哈夫曼树是一种带权路径长度最短的二叉树，也称为最优二叉树。下面用一幅图来说明。它们的带权路径长度分别为：图a： WPL=5*2+7*2+2*2+13*2=54图b： WPL=5*3+2*3+7*2+13*1=48可见，图b的带权路径长度较小，我们可以证明图b就是哈夫曼树(也称为最优二叉树)。回到顶部二，如何构建哈夫曼树一般可以按下面步骤构建：1，将所有左，右子树

2017-11-29 15:00:35 317

原创使用argparse解析命令行参数

一个例子代码：文件名为：argparse_test.pyimport argparseparser = argparse.ArgumentParser()parser.add_argument('--para1', type=str, default='value1')parser.add_argument('--para2', type=str, default='value2')pa

2017-11-28 17:36:55 487

原创 Centos系统基于Docker安装tensorflow

要基于Docker安装tensorflow，当然首先要安装Docker了，下面先说安装Docker的步骤1. 首先卸载电脑上可能存在的老的版本，如果没有安装过可以不执行$ sudo yum remove docker \ docker-common \ docker-selinux \ d

2017-11-22 10:36:01 1301

转载机器学习中的梯度下降法

在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1. 梯度　　　　在微积分里面，对多元函数的参数求∂偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数f(x,y), 分别对x,y求偏导数，求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,简称gr

2017-11-20 09:20:43 365

原创 expect以及rsync实现远程连接自动推送密码

有的时候，我们ssh登陆远程机器，或者scp从远程机器上拷贝文件，都要手动输入远程机器的密码，如果我们的脚本要自动指定这些命令，如何实现自动推送密码？这就要用到except和spawn这里我用到了两个文件1. 文件1： upload_to_sohu.exp#/bin/bash/expect #特定标识#先预定义一些变量，比如远程机器的用户名，密码，ip，文件路径set user your

2017-11-17 16:22:28 2155

转载 iotop命令监控磁盘io

iotop命令是一个用来监视磁盘I/O使用状况的top类工具。iotop具有与top相似的UI，其中包括PID、用户、I/O、进程等相关信息。Linux下的IO统计工具如iostat，nmon等大多数是只能统计到per设备的读写情况，如果你想知道每个进程是如何使用IO的就比较麻烦，使用iotop命令可以很方便的查看。iotop使用Python语言编写而成，要求Python2.5（及以上版本）和Li

2017-09-28 16:15:55 1030

转载网络监视工具nethogs命令

有很多适用于Linux系统的开源网络监视工具。比如说，你可以用命令iftop来检查带宽使用情况。netstat用来查看接口统计报告，还有top监控系统当前运行进程。但是如果你想要找一个能够按进程实时统计网络带宽利用率的工具，那么NetHogs值得一看。NetHogs是一个开源的命令行工具（类似于Linux的top命令），用来按进程或程序实时统计网络带宽使用率。来自NetHogs项目网站

2017-09-28 16:06:19 589

转载 iptraf：一个实用的TCP/UDP网络监控工具

iptraf是一个基于ncurses的IP局域网监控器，用来生成包括TCP信息、UDP计数、ICMP和OSPF信息、以太网负载信息、节点状态信息、IP校验和错误等等统计数据。它基于ncurses的用户界面可以使用户免于记忆繁琐的命令行开关。特征IP流量监控器，用来显示你的网络中的IP流量变化信息。包括TCP标识信息、包以及字节计数，ICMP细节，OSPF包类型。简单的和详细的接口统计数据，包括IP

2017-09-28 15:52:54 2457

转载 Linux网络实时流量监测工具iftop的安装使用

概述：网络管理是基础运维中一个很重要的工作，在看似平静的网络运行中，其实暗流汹涌，要保证业务系统稳定运行，网络运维者必须要了解网络的流量状态、各个网段的使用情形，带宽的利用率、网络是否存在瓶颈等，同时，当网络发生故障时，必须能够及时发现问题，迅速定位问题，进而解决问题，这就需要一些网络监测工具的辅助，本节将介绍一款小巧但功能很强大的网络实时流量监测工具iftop。一、iftop概述iftop是Li

2017-09-28 15:39:25 665

原创 Java开发Maven插件

这里需要两个工程，一个是插件工程，另外一个是插件测试工程首先介绍下插件工程：新建一个web项目，名称为myMavenPlugin，pom文件对该工程的相关配置信息为（注意这是关于项目自身的信息）：org.apache.maven.plugins my-maven-plugin 1.0.1-SNAPSHOT maven-plugin my-maven-plugin http:/

2017-09-14 16:07:35 435

原创 Java进行spark计算

下载安装spark：可以从如下地址下载最新版本的spark：https://spark.apache.org/downloads.html这个下载下来后是个tgz的压缩包，解压后spark环境就安装好了或者从github上下载：#git clone git://github.com/apache/spark.git安装好spark环境后，我们就可以通过Java，Python，Scala等语言的ap

2017-09-06 16:57:54 2878

原创 IntelliJ Idea中使用Java8新特性lambda表达式

环境：环境变量JAVA_HOME配置jdk1.8idea配置支持lambda： File -> Project Structure -> Modules -> Language level, 选择: 8-Lambdas, type annotations etc. File -> Project Structure -> Project -> Project language

2017-09-06 16:12:33 20653 1

转载 B树、B-树、B+树、B*树

B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； 2.所有结点存储一个关键字； 3.非叶子结点的左指针指向小于其关键字的子树，右指针指向大于其关键字的子树；如： B树的搜索，从根结点开始，如果查询的关键字与结点的关键字相等，那么就命中；否则，如果查询关键字比结点关键字小，就进入

2017-09-05 19:03:19 250

转载 Spring AOP中declare-parents为特定的类增加新的功能

如果有这样一个需求，为一个已知的API添加一个新的功能。由于是已知的API，我们不能修改其类，只能通过外部包装。但是如果通过之前的AOP前置或后置通知，又不太合理，最简单的办法就是实现某个我们自定义的接口，这个接口包含了想要添加的方法。但是JAVA不是一门动态的语言，无法再编译后动态添加新的功能，这个时候就可以使用 aop:declare-parents 来做了.如果是可以改写的类，直接实现自定义

2017-08-30 09:46:18 1821

原创 python编写hadoop代码

这是一个只有mapper的任务代码：主要有两个文件，一个是shell脚本文件，主要是执行hadoop命令，一个是用python编写的mapper脚本文件首先看下shell脚本文件，#cat get_lemma_fenci.sh#/bin/bash. /etc/profileif [ -f ~/.bash_profile ]then . ~/.bash_pro

2017-08-25 12:08:38 1276

转载线上问题排查技巧一

有时候有很多问题只有在线上或者预发环境才能发现，而线上又不能Debug，所以线上问题定位就只能看日志，系统状态和Dump线程，本文只是简单的介绍一些常用的工具，帮助定位线上问题。问题定位1: 首先使用TOP命令查看每个进程的情况，显示如下：top - 22:27:25 up 463 days, 12:46, 1 user, load average: 11.80, 12

2017-08-25 11:29:29 1250

转载 Top实战小技巧

终端执行top命令之后【也可后接一些选项，比如top -p 1只监控init进程，top -u root只显示root运行进程等等】，可以敲击如下按键，实现不同功能：1(数字1)：列出所有的单个CPU负载情况z:top显示颜色P[大写]:按CPU占用高低顺序列出程序M[大写]:按内存占用高低顺序列出程序x:类似高亮显示，在z显示模式下效果才会更明显如下效

2017-08-25 11:11:11 3772

原创 pstree命令的用法(查看进程树)

pstree命令是用于查看进程树之间的关系，即哪个进程是父进程，哪个是子进程，可以清楚的看出来是谁创建了谁#pstree几个重要的参数：-A: 各进程树之间的连接以ASCII码字符来连接-U:各进程树之间的连接以utf8字符来连接，某些终端可能会有错误-p:同时列出每个进程的PID-u: 同时列出每个进程的所属账号名称：例子：#pstree -upsystem

2017-08-25 11:03:34 23602

原创 URLEncoder.encode的默认编码问题

今天要实现的一个功能是在页面上上传文件到后台，文件是txt格式，每行是一个url，后台读取后，对路径中的中文进行url编码如下是我的代码：Pattern chinesePattern = Pattern.compile("[\\u4e00-\\u9fa5]+"); MultipartFile file = null; try { bo

2017-08-16 16:12:40 8061

转载 Python多线程和多进程编程

原文地址：https://tracholar.github.io/wiki/python/python-multiprocessing-tutorial.html简介早已进入多核时代的计算机，怎能不用多线程和多进程进行加速。我在使用python的过程中，用到过几次多线程和多进程加速，觉得充分利用CPU节省时间是一种很有“延长生命”的感觉。现将网络上看到的python的多

2017-08-10 10:00:18 930

mysql-5.1.69.tar.gz

httpd-2.2.20.tar.gz

apache+php+mysql的嵌入式移植详细过程

arm-linux-gcc-4.4.3.tar.gz

apache+sqlite+php的嵌入式移植

空空如也