自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (1)
  • 收藏
  • 关注

原创 一些网站

http://www.findbestopensource.com/home/http://stackoverflow.com/

2013-05-21 21:14:07 407

原创 《基于语义域语言模型的中文话题关联检测》笔记

主文献:基于语义域语言模型的中文话题关联检测 洪宇等======================================================================================名词解释:语义域:语义趋近一致的语言结构的集合。语义片段:描述某一语义的最小语言结构语境:同时包含语义片段及其上下文的语言结构。报道:是以一

2013-05-30 16:55:13 801

转载 数据挖掘面试题总结

1.给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?      方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。      s遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样

2013-05-28 19:13:32 469

原创 《大数据》笔记 相似项发现

1.近邻相似度1.1集合的Jaccard相似度 两个集合的交集除以并集1.2 文档相似度抄袭文档镜像页面同源新闻稿晕死...怎么计算文档相似度???????1.3 协同过滤就是推荐系统。。。看9.3节2.文档的shingling问题的解答来了2.1 k-shingle字符串中长度为k的子串例:{abcdabd} k = 2k-shin

2013-05-22 02:38:13 1483

转载 10 sites to get the large data set or data corpus for free

You may require GBs of data to do performance or load testing. How your app behaves when there is loads of data. You need to know the capacity of your application. This is the frequently asked questio

2013-05-21 21:10:32 803

原创 《大数据》笔记 TF.IDF

TF.IDF在Lucene中被用来计算关键词和检索结果的相关度。TF = Term Frequency反映关键词在某篇文档中出现的频率,频率越高,自然就越相关TF不是(关键词出现个数)/(所有词个数),而是做了归一化的(关键词出现个数)/(这篇文档中出现次数最多的那个词的出现个数)。IDF = Inverse Document Frequency首先看DFDF是(出

2013-05-20 00:18:00 727

原创 《大数据》笔记 Bonferroni correction

引用《大数据》原文假设我们确信在某个地方有一群恶人,目标是把他们揪出来。再假定我们有理由相信,这些恶人会定期在某个宾馆聚会来商讨他们的作恶计划。为限定问题的规模,我们再给出如下假设:(1) 恶人数目可能有10亿;(这里翻译的不好,不是说有10亿个恶人,而是这10亿个人都有作恶的嫌疑,实际的恶人数只是这10亿人中的10人)(2) 每个人每100天当中会有一天去宾馆;(3)

2013-05-19 23:35:30 2545

转载 解析JDK 7的Garbage-First收集器

转自:http://icyfenix.iteye.com/blog/1179673Garbage-First(后文简称G1)收集器是当今收集器技术发展的最前沿成果,在Sun公司给出的JDK RoadMap里面,它被视作JDK 7的HotSpot VM 的一项重要进化特征。从JDK 6u14中开始就有Early Access版本的G1收集器供开发人员实验、试用,虽然在JDK 7正式版发布时,

2013-05-18 21:00:52 539

原创 Serial模式下的GC测试

环境:windows7 64bitJDK1.7.0_07测试1:没有手动分配任何对象时的内存状况VM参数:-XX:+UseSerialGC -Xmx20m -Xms20m -verbose:gc -XX:+PrintGCDetails -Xmn10m -XX:SurvivorRatio=8使用传统的SerialGC,最大堆内存20m,年轻代10m,Survivor与Eden

2013-05-18 20:29:40 597

原创 JAVA GC 总结

概念:Minor GC:新生代的垃圾收集Full GC:老年代的垃圾收集,通常伴随Minor GC(非绝对)Full GC 通常比Minor GC慢10倍以上===========================================================================一、判定对象是否存活1.1.引用计数算法实现简单,无法解决循

2013-05-18 17:07:26 630

转载 关于分布式系统的数据一致性问题

关于分布式系统的数据一致性问题  作者:爱公司的程序员,发布于2012-11-6,来源:博客园 现在先抛出问题,假设有一个主数据中心在北京M,然后有成都A,上海B两个地方数据中心,现在的问题是,假设成都上海各自的数据中心有记录变更,需要先同步到主数据中心,主数据中心更新完成之后,在把最新的数据分发到上海,成都的

2013-05-17 14:42:58 1333

原创 Java查看GC情况

import java.util.ArrayList;import java.util.List;public class VMTest { public static void main(String[] args) { List l = new ArrayList(); while(true) { try { Thread.sleep(1); new T

2013-05-16 21:21:16 1339

原创 JVM中MemoryUsage中init,committed,used,max的含义

以下摘抄自JDK1.7 * * * init * represents the initial amount of memory (in bytes) that * the Java virtual machine requests from the operating system * for memory management during st

2013-05-16 20:14:24 20824 2

转载 java jvm 参数 -Xms -Xmx -Xmn -Xss 调优总结

常见配置举例 堆大小设置JVM 中最大堆大小有三方面限制:相关操作系统的数据模型(32-bt还是64-bit)限制;系统的可用虚拟内存限制;系统的可用物理内存限制.32位系统 下,一般限制在1.5G~2G;64为操作系统对内存无限制.我在Windows Server 2003 系统,3.5G物理内存,JDK5.0下测试,最大可设置为1478m.典型设置: java -Xmx3550

2013-05-15 17:02:05 1150

原创 初探JMX

1.标准MBean:实现了AAAMBean或AAAMXBean接口的普通类,AAA为该类的类名。public interface StandardMXBean { public String getName(); public String getCity(); public int getRank();}import java.lang.management.Managem

2013-05-15 13:28:08 514

原创 JGroups在两台机器之间找不到对方的解决方法

问题描述:使用JGroups编写了一个基于ip_mcast的程序,在同一台机器上能正常运行,在局域网内的两台机器上运行却找不到对方。1.核对两台机子的ip,确实在同一子网下。2.查看运行时输出,发现两台机子绑定的ip一个是ipv6,一个是ipv4。把默认绑定ipv6的那台机子修改为它的ipv4地址(-Djgroups.bind_addr=223.3.96.192),再试还是不能相互发现

2013-05-12 15:06:17 1634

转载 nat四个地址概念

在很多路由器的配置中,或者对NAT的介绍中,会涉及到四个地址:inside local address; inside global address; outside local address; outside global address.先来看它们的概念inside local address, 内网中设备所使用的 IP 地址,此地址通常是一个私有地址; inside g

2013-05-12 13:24:42 1759

转载 协同锁和强制锁

Linux文件锁的示例  为了理解文件锁是如何工作的,我们建立程序文件file_lock.c:#include #include   int main(int argc, char **argv) {  if (argc > 1) {    int fd = open(argv[1], O_WRONLY

2013-05-07 19:43:04 588

转载 linux文件锁技术文档

转自 http://blog.csdn.net/yebanghua/article/details/7301904第一节Unix支持的文件锁技术介绍Unix系统允许多个进程同时对一个文件进行读写,虽然每一个read或write调用本身是原子的,但内核在两个读写操作之间并没有加以同步,因此当一个进程多次调用read来读文件时,其它进程有可能在两次read之间改变该文件,造成文件数据的

2013-05-07 19:05:28 893

原创 Linux下使用文件创建虚拟分区

1.创建镜像文件dd if=/dev/zero of=disk5.img bs=64M count=12.创建目录mkdir ./LockTest3.使用文件系统工具格式化这个镜像文件mkfs.ext4 disk5.img4.挂载这个镜像文件 sudo mount -t ext4 disk5.img ./LockTest/

2013-05-05 21:03:55 729

转载 flock和fcntl的区别

fork之后,flock的锁依然保持。fcntl的锁丢失。execve的时候,无论是Linux还是freebsd,无论是flock还是fcntl,锁依然保持。对于flock而言,fork/dup,或是用open以相同的路径获得一个新的fd,对这个fd的锁都是指向同一个锁。例如fork后子进程用flock(fd,LOCK_UN)这个锁,那么父进程也会丢失这个锁。而fcntl的锁则在for

2013-05-05 20:47:37 878

转载 linux下C语言中的flock函数用法

先贴出来flock在man页下的解释FLOCK(2)                   Linux Programmer’s Manual                  FLOCK(2)NAME       flock - apply or remove an advisory lock on an open fileSYNOPSIS       #include

2013-05-05 20:06:56 783

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除