2014年06月_追梦船

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 linux find命令详解

一、find 命令格式 1、find命令的一般形式为； find pathname -options [-print -exec -ok ...] 2、find命令的参数； pathname: find命令所查找的目录路径。例如用.来表示当前目录，用/来表示系统根目录。-print： find命令将匹配的文件输出到标准输出。-exec： fi

2014-06-19 10:55:40 649

转载海量数据相似度计算之simhash短文本查找

转自：http://blog.csdn.net/lance_yan/article/details/11451781 在前一篇文章《海量数据相似度计算之simhash和海明距离》介绍了simhash的原理，大家应该感觉到了算法的魅力。但是随着业务的增长 simhash的数据也会暴增，如果一天100w，10天就1000w了。我们如果插入一条数据就要去比较1000w次的simhash，计

2014-06-17 16:34:54 1102

转载海量数据相似度计算之simhash和海明距离

通过采集系统我们采集了大量文本数据，但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复，如何选择和设计文本的去重算法？常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用，如果我们的爬虫每天采集的数据以千万计算，我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本

2014-06-17 16:07:33 1100

转载 AWK 简明教程

有一些网友看了前两天的《Linux下应该知道的技巧》希望我能教教他们用awk和sed，所以，出现了这篇文章。我估计这些80后的年轻朋友可能对awk/sed这类上古神器有点陌生了，所以需要我这个老家伙来炒炒冷饭。况且，AWK是贝尔实验室1977年搞出来的文本出现神器，今年是蛇年，是AWK的本命年，而且年纪和我相仿，所以非常有必要为他写篇文章。之所以叫AWK是因为其取了三位创始人 Alfred

2014-06-13 13:11:04 850

转载 sed 简明教程

awk于1977年出生，今年36岁本命年，sed比awk大2-3岁，awk就像林妹妹，sed就是宝玉哥哥了。所以林妹妹跳了个Topless，他的哥哥sed坐不住了，也一定要出来抖一抖。 sed全名叫stream editor，流编辑器，用程序的方式来编辑文本，相当的hacker啊。sed基本上就是玩正则模式匹配，所以，玩sed的人，正则表达式一般都比较强。同样，本篇文章不会说sed

2014-06-13 13:06:11 745

转载文本相似度算法

文本相似度算法 1.信息检索中的重要发明TF-IDF 1.1TF Term frequency即关键词词频，是指一篇文章中关键词出现的频率，比如在一篇M个词的文章中有N个该关键词，则（公式1.1-1）为该关键词在这篇文章中的词频。 1.2IDF Inverse document frequency指逆向文本频率，是用于衡量关键词权重的指数，由公式（公式1.2-1）计算而得

2014-06-13 11:46:30 1247

转载 Sed学习笔记

Sed学习笔记 1. Sed简介 sed是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向存储输出。Sed主要用来

2014-06-12 17:51:21 558

中文汉字注音程序jar包 PYLabeler_v1.0.jar

利用该jar包可以很容易的调用注音程序。具体调用细节可以参见我的博客http://blog.csdn.net/chenlei0630

2014-10-31

中科院刘莹老师的数据挖掘第二次作业

中科院刘莹老师的数据挖掘第二次作业.共享一下！

2013-12-07

中科院王斌信息检索的第二次作业

中国科学院大学王斌老师信息检索课程的第二次作业主要包括第六至第十五章的内容。

2013-12-04

《JavaScript 语言参考》中文版

2011-04-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人