- 博客(22)
- 资源 (1)
- 收藏
- 关注
原创 《基于语义域语言模型的中文话题关联检测》笔记
主文献:基于语义域语言模型的中文话题关联检测 洪宇等======================================================================================名词解释:语义域:语义趋近一致的语言结构的集合。语义片段:描述某一语义的最小语言结构语境:同时包含语义片段及其上下文的语言结构。报道:是以一
2013-05-30 16:55:13 801
转载 数据挖掘面试题总结
1.给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样
2013-05-28 19:13:32 469
原创 《大数据》笔记 相似项发现
1.近邻相似度1.1集合的Jaccard相似度 两个集合的交集除以并集1.2 文档相似度抄袭文档镜像页面同源新闻稿晕死...怎么计算文档相似度???????1.3 协同过滤就是推荐系统。。。看9.3节2.文档的shingling问题的解答来了2.1 k-shingle字符串中长度为k的子串例:{abcdabd} k = 2k-shin
2013-05-22 02:38:13 1483
转载 10 sites to get the large data set or data corpus for free
You may require GBs of data to do performance or load testing. How your app behaves when there is loads of data. You need to know the capacity of your application. This is the frequently asked questio
2013-05-21 21:10:32 803
原创 《大数据》笔记 TF.IDF
TF.IDF在Lucene中被用来计算关键词和检索结果的相关度。TF = Term Frequency反映关键词在某篇文档中出现的频率,频率越高,自然就越相关TF不是(关键词出现个数)/(所有词个数),而是做了归一化的(关键词出现个数)/(这篇文档中出现次数最多的那个词的出现个数)。IDF = Inverse Document Frequency首先看DFDF是(出
2013-05-20 00:18:00 727
原创 《大数据》笔记 Bonferroni correction
引用《大数据》原文假设我们确信在某个地方有一群恶人,目标是把他们揪出来。再假定我们有理由相信,这些恶人会定期在某个宾馆聚会来商讨他们的作恶计划。为限定问题的规模,我们再给出如下假设:(1) 恶人数目可能有10亿;(这里翻译的不好,不是说有10亿个恶人,而是这10亿个人都有作恶的嫌疑,实际的恶人数只是这10亿人中的10人)(2) 每个人每100天当中会有一天去宾馆;(3)
2013-05-19 23:35:30 2545
转载 解析JDK 7的Garbage-First收集器
转自:http://icyfenix.iteye.com/blog/1179673Garbage-First(后文简称G1)收集器是当今收集器技术发展的最前沿成果,在Sun公司给出的JDK RoadMap里面,它被视作JDK 7的HotSpot VM 的一项重要进化特征。从JDK 6u14中开始就有Early Access版本的G1收集器供开发人员实验、试用,虽然在JDK 7正式版发布时,
2013-05-18 21:00:52 539
原创 Serial模式下的GC测试
环境:windows7 64bitJDK1.7.0_07测试1:没有手动分配任何对象时的内存状况VM参数:-XX:+UseSerialGC -Xmx20m -Xms20m -verbose:gc -XX:+PrintGCDetails -Xmn10m -XX:SurvivorRatio=8使用传统的SerialGC,最大堆内存20m,年轻代10m,Survivor与Eden
2013-05-18 20:29:40 597
原创 JAVA GC 总结
概念:Minor GC:新生代的垃圾收集Full GC:老年代的垃圾收集,通常伴随Minor GC(非绝对)Full GC 通常比Minor GC慢10倍以上===========================================================================一、判定对象是否存活1.1.引用计数算法实现简单,无法解决循
2013-05-18 17:07:26 630
转载 关于分布式系统的数据一致性问题
关于分布式系统的数据一致性问题 作者:爱公司的程序员,发布于2012-11-6,来源:博客园 现在先抛出问题,假设有一个主数据中心在北京M,然后有成都A,上海B两个地方数据中心,现在的问题是,假设成都上海各自的数据中心有记录变更,需要先同步到主数据中心,主数据中心更新完成之后,在把最新的数据分发到上海,成都的
2013-05-17 14:42:58 1333
原创 Java查看GC情况
import java.util.ArrayList;import java.util.List;public class VMTest { public static void main(String[] args) { List l = new ArrayList(); while(true) { try { Thread.sleep(1); new T
2013-05-16 21:21:16 1339
原创 JVM中MemoryUsage中init,committed,used,max的含义
以下摘抄自JDK1.7 * * * init * represents the initial amount of memory (in bytes) that * the Java virtual machine requests from the operating system * for memory management during st
2013-05-16 20:14:24 20824 2
转载 java jvm 参数 -Xms -Xmx -Xmn -Xss 调优总结
常见配置举例 堆大小设置JVM 中最大堆大小有三方面限制:相关操作系统的数据模型(32-bt还是64-bit)限制;系统的可用虚拟内存限制;系统的可用物理内存限制.32位系统 下,一般限制在1.5G~2G;64为操作系统对内存无限制.我在Windows Server 2003 系统,3.5G物理内存,JDK5.0下测试,最大可设置为1478m.典型设置: java -Xmx3550
2013-05-15 17:02:05 1150
原创 初探JMX
1.标准MBean:实现了AAAMBean或AAAMXBean接口的普通类,AAA为该类的类名。public interface StandardMXBean { public String getName(); public String getCity(); public int getRank();}import java.lang.management.Managem
2013-05-15 13:28:08 514
原创 JGroups在两台机器之间找不到对方的解决方法
问题描述:使用JGroups编写了一个基于ip_mcast的程序,在同一台机器上能正常运行,在局域网内的两台机器上运行却找不到对方。1.核对两台机子的ip,确实在同一子网下。2.查看运行时输出,发现两台机子绑定的ip一个是ipv6,一个是ipv4。把默认绑定ipv6的那台机子修改为它的ipv4地址(-Djgroups.bind_addr=223.3.96.192),再试还是不能相互发现
2013-05-12 15:06:17 1634
转载 nat四个地址概念
在很多路由器的配置中,或者对NAT的介绍中,会涉及到四个地址:inside local address; inside global address; outside local address; outside global address.先来看它们的概念inside local address, 内网中设备所使用的 IP 地址,此地址通常是一个私有地址; inside g
2013-05-12 13:24:42 1759
转载 协同锁和强制锁
Linux文件锁的示例 为了理解文件锁是如何工作的,我们建立程序文件file_lock.c:#include #include int main(int argc, char **argv) { if (argc > 1) { int fd = open(argv[1], O_WRONLY
2013-05-07 19:43:04 588
转载 linux文件锁技术文档
转自 http://blog.csdn.net/yebanghua/article/details/7301904第一节Unix支持的文件锁技术介绍Unix系统允许多个进程同时对一个文件进行读写,虽然每一个read或write调用本身是原子的,但内核在两个读写操作之间并没有加以同步,因此当一个进程多次调用read来读文件时,其它进程有可能在两次read之间改变该文件,造成文件数据的
2013-05-07 19:05:28 893
原创 Linux下使用文件创建虚拟分区
1.创建镜像文件dd if=/dev/zero of=disk5.img bs=64M count=12.创建目录mkdir ./LockTest3.使用文件系统工具格式化这个镜像文件mkfs.ext4 disk5.img4.挂载这个镜像文件 sudo mount -t ext4 disk5.img ./LockTest/
2013-05-05 21:03:55 729
转载 flock和fcntl的区别
fork之后,flock的锁依然保持。fcntl的锁丢失。execve的时候,无论是Linux还是freebsd,无论是flock还是fcntl,锁依然保持。对于flock而言,fork/dup,或是用open以相同的路径获得一个新的fd,对这个fd的锁都是指向同一个锁。例如fork后子进程用flock(fd,LOCK_UN)这个锁,那么父进程也会丢失这个锁。而fcntl的锁则在for
2013-05-05 20:47:37 878
转载 linux下C语言中的flock函数用法
先贴出来flock在man页下的解释FLOCK(2) Linux Programmer’s Manual FLOCK(2)NAME flock - apply or remove an advisory lock on an open fileSYNOPSIS #include
2013-05-05 20:06:56 783
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人