- 博客(14)
- 资源 (19)
- 收藏
- 关注
原创 浏览器页面的缓存设置(不缓存设置)
HTML的HTTP协议头信息中控制着页面在几个地方的缓存信息,包括浏览器端,中间缓存服务器端(如:squid等),Web服务器端。本文讨论头信息 中带缓存控制信息的HTML页面(JSP/Servlet生成好出来的也是HTML页面)在中间缓存服务器中的缓存情况。 HTTP协议中关于缓存的信息头关键字包括Cache-Control(HTTP1.1),Pragma(HTTP1.0),la...
2016-08-26 11:02:18 21492 2
原创 编辑距离算法
1.介绍:Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。2.用途模糊查询3.实现过程a.首先是有两个字符串
2016-08-10 15:34:25 786 1
转载 Python特殊语法:filter、map、reduce、lambda
Python内置了一些非常有趣但非常有用的函数,充分体现了Python的语言魅力!filter(function, sequence):对sequence中的item依次执行function(item),将执行结果为True的item组成一个List/String/Tuple返回(取决于sequence的类型):>>> def f(x): return x % 2 != 0 an
2016-08-10 15:02:15 3283
转载 Python与shell交互os.system、 os.popen、 subprocess
这篇文章主要介绍了Python与shell的3种交互方式介绍,本文讲解了os.system、os.popen、subprocess模块等3种方法,需要的朋友可以参考下。 问题概述考虑这样一个问题,有hello.py脚本,输出”hello, world!”;有TestInput.py脚本,等待用户输入,然后打印用户输入的数据。那么,怎么样把hello.py输出内容发送给T...
2016-08-10 10:18:43 4978
转载 余弦方法计算相似度算法--Python实现 Java实现
(1)余弦相似性 通过测量两个向量之间的角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。所以,它通常用于文件比较。 详见百科介绍(点击打开链接)(2)算法实现的中未使用权重(IDF ---逆文档频率),使用词
2016-08-09 20:02:15 4133
转载 余弦计算相似度度量
余弦计算相似度度量相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本中词语,映射到向量空间,形成文本中文字和向量数据的映射关系,通过计算几个或者多个不同的向量的差异的大小,来计算文本的相似度。下面介绍一个详细
2016-08-09 19:19:55 4080
转载 文本相识度算法(余弦相似性、简单共有词、编辑距离、SimHash、汉明距离、Jaccard相似性系数、欧几里得距离、曼哈顿距离 )
文本相似度计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。比如舆论控制,我们假设你开发了一个微博网站,并且已经把世界上骂人的句子都已经收录进了数据库,那么当一个用户发微博时会先跟骂人句子的数据库进行比较,如果符合里面的句子就不让用户发出。通常情况下,很多工程师就会想到用like或者where的sql语法去查找。可是当情况更为复杂呢?数据库存放了“你是个
2016-08-09 19:01:50 11368 1
转载 simhash与重复信息识别(二)
转载:http://leoncom.org/?tag=simhashhttp://blog.sina.com.cn/s/blog_56d8ea900100y41b.html Simhash传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量夹角。但由于有可能
2016-08-09 16:20:23 804
转载 simhash与重复信息识别(一)
随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题。例如,对于搜索引擎的爬虫系统来说,收录重复的网页是毫无意义的,只会造成存储和计算资源的浪费;同时,展示重复的信息对于用户来说也并不是最好的体验。造成网页近重复的可能原因主要包括: 镜像网站内容复制嵌入广告计数改变少量修改
2016-08-09 16:16:01 1202
原创 Shell脚本读取mysql结果集各数据项的值
在linux下用shell脚本读取mysql结果集各数据项的值,按行读取sql结果,将sql执行结果读取到shell变量中,然就可进行处理。HOSTNAME="172.16.xx.xx" #数据库信息PORT="3306"USERNAME="root"PASSWORD="root"DBNAME="log" #数据库名称TABLENAME="student&q
2016-08-08 16:04:41 27771 3
原创 Shell重定向 &>file、2>&1、1>&2 、/dev/null的区别
在shell脚本中,默认情况下,总是有三个文件处于打开状态,标准输入(键盘输入)、标准输出(输出到屏幕)、标准错误(也是输出到屏幕),它们分别对应的文件描述符是0,1,2 。> 默认为标准输出重定向,与 1> 相同2>&1 意思是把 标准错误输出 重定向到 标准输出.&>file 意思是把标准输出 和 标准错误输出 都重定向到文件file中...
2016-08-08 15:07:11 127187 10
原创 shell处理mysql增、删、改、查
shell处理mysql增、删、改、查 参考博客第五种方法:http://blog.csdn.net/u011630575/article/details/50986835引言shell是如何操作mysql的? shell操作mysql其实就是通过mysql命令通过参数去执行语句,跟其他程序里面是一样的,看看下面这个参数:-e, --execute=name ...
2016-08-07 22:19:33 3675 4
转载 shell脚本操作mysql数据库,使用mysql的-e参数可以执行各种sql的(创建,删除,增,删,改、查)等各种操作
mysql -hhostname -Pport -uusername -ppassword -e 相关mysql的sql语句,不用在mysql的提示符下运行mysql,即可以在shell中操作mysql的方法。 #!/bin/bashHOSTNAME="192.168.111.84" #数据库信息...
2016-08-07 17:32:57 2437
转载 MYSQL tee的功能测试
Mysql将结果保存到文件,从文件中执行sql语句记录操作过程(tee命令的使用) 1. 有时候我们可能需要记录用户对mysql的操作过程,这时我们可以使用mysql的tee命令1)第一种情况是在链接数据库的时候使用tee>mysql -u root -p --tee=C:\log.txt //注意这里路径不需要加上引号这时我们对数据库的所有操作都会记录在lo...
2016-08-07 16:39:20 4501 1
Mushroom Classification--xgboost训练数据
2018-03-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人