杂项
码农SW
这个作者很懒,什么都没留下…
展开
-
Load Balancing Web Applications
This article offers an overview of several approaches to load balancing on Web application server clusters. A cluster is a group of servers running a Web application simultaneously, appearing to the w转载 2014-08-28 22:14:15 · 1142 阅读 · 0 评论 -
Chrome Native Client 简介
Chrome Native Client 简介目的:Native Client是一种允许在浏览器中运行native compiled code 的技术,允许开发者运用自己熟悉的语言来开发web应用,而不只是JavaScript,目前NativeClient技术只能应用于google自己的chrome中。一个使用Native client技术的web应用的组成:JavaScript,HT原创 2012-08-13 14:46:50 · 18040 阅读 · 0 评论 -
Hadoop-MapReduce-TeraSort-大数据排序例子
1TB(或1分钟)排序的冠军 作为分布式数据处理的框架,集群的数据处理能力究竟有多快?或许1TB排序可以作为衡量的标准之一。 1TB排序,就是对1TB(1024GB,大约100亿行数据)的数据进行排序。2008年,Hadoop赢得1TB排序基准评估第一名,排序1TB数据耗时209秒。后来,1TB排序被1分钟排序所取代,1分钟排序指的是在一分钟内尽可能多的排序。2009年,在一个1406转载 2012-07-24 17:37:43 · 8900 阅读 · 1 评论 -
想写一些function能被任何语言调用的方法
问题:How can I write a set of functions that can be invoked from (almost) any programming language?解答:You have a few options1) create a HTTP interface, almost everything can talk原创 2012-07-25 10:01:26 · 680 阅读 · 0 评论 -
mapreduce-wordcount例子
原版:http://hadoop.apache.org/common/docs/r0.20.2/mapred_tutorial.html#Job+Output中文版:http://blog.csdn.net/ant_yan/article/details/7366391原创 2012-07-23 18:05:20 · 688 阅读 · 0 评论 -
hadoop-mapReduce工作流程和组件简介
1. 概述1970年,IBM的研究员E.F.Codd博士在刊物《Communication of the ACM》上发表了一篇名为“A Relational Model of Data for Large Shared Data Banks”的论文,提出了关系模型的概念,标志着关系数据库的诞生,随后几十年,关系数据库及其结构化查询语言SQL成为程序员必须掌握的基本技能之一。2005转载 2012-07-23 17:44:45 · 2185 阅读 · 0 评论 -
VS2005 在编译或者链接的时候报文件找不到时如何处理
在使用VS-IDE时,经常会碰到编译时,找不到某个头文件,在链接时,说找不到某个lib,找不到某个dll,这种问题经常碰到。这里总结一下解决思路:1. 当然是确定你的disk中真的有这么一个文件。2. 确定那个文件所在的path,在VS的查找list里面。VS的查找list在哪里设置:http://msdn.microsoft.com/en-us/library原创 2012-08-07 17:02:04 · 1031 阅读 · 0 评论 -
ubuntu apache2 的负载均衡和反向代理
ubuntu apache2 的负载均衡和反向代理apache功能其实很是强大,最近一段时间研究了下apache的反向代理和负载均衡,反向代理网协的外网出口和我的博客出口就是通过apache的反向代理实现的,总结一下,重点说说负载均衡的配置。首先说先实验环境吧操作系统:DEBIAN 5.03(Ubuntu也可以同理配置)一、安装apache加载模块转载 2012-07-03 14:18:23 · 751 阅读 · 0 评论 -
浮点数累加的方法
运行下述代码段:double value = 99999999.99; double sum = 0.0; for(int i=0;i { sum += value; // 错误的浮点累加方法} printf("%18.2lf", sum); // 819199999918.02 --wrong运行结果,sum是错误的, 和正确值相差0.06(转载 2011-07-31 12:01:29 · 2487 阅读 · 0 评论 -
几个不错的国外免费虚拟主机 Free host
datasir的空间打不开的问题已经解决,是我程序的问题。这两天试用了几个国外的免费虚拟主机:000webhost:申请之后,需要邮件确认才能使用,但是我一直没有收到确认信;现在已经知道问题所在了,需要用匿名代理(可以选择web在线代理)才可以,因为不对 国内 开放申请datanethost : 感觉规模很小,在教育网访问速度可以,提供50Mb php web空间和转载 2012-05-20 15:25:25 · 15766 阅读 · 2 评论 -
php的一些学习材料
1. 如何搭建 php-apache-mysql 环境:http://www.pkphp.com/2008/08/11/ubuntu%E4%B8%8B%E5%AE%89%E8%A3%85-apachephpmysql%E6%96%87%E6%9C%AC%E6%9C%8D%E5%8A%A1%E5%99%A8%EF%BC%81/http://www.cnblogs.com/witer666/arc原创 2012-05-18 15:36:31 · 703 阅读 · 0 评论 -
提升磁盘IO性能的几个技巧
目前磁盘都是机械方式运作的,主要体现在磁盘读写前寻找磁道的过程。磁盘自带的读写缓存大小,对于磁盘读写速度至关重要。读写速度快的磁盘,通常都带有较大的读写缓存。磁盘的寻道过程是机械方式,决定了其随机读写速度将明显低于顺序读写。在我们做系统设计和实现时,需要考虑到磁盘的这一特性。 FastDFS是一个开源的高效分布式文件系统,它最初的实现,文件是按hash方式随机分布到多个目录中的,后来增加转载 2012-03-15 11:13:28 · 912 阅读 · 0 评论 -
Ubuntu虚拟机访问宿主Windows系统文件夹的方法
1. 首先把你需要ubuntu系统访问的本地文件夹设置为共享文件夹,点击共享,之后设置共享文件夹名和允许访问的用户账号。2. 之后进入Ubuntu系统,点击places->Connect to Server. 输入server的IP和Share名字。注意:server 的IP,不是宿主机器的实际IP,而是相对于Ubuntu虚拟机的一个虚拟局域网IP,通过在Ubuntu系原创 2012-02-19 17:01:06 · 1544 阅读 · 0 评论 -
VMWare虚拟机装ubuntu系统上不了网
问题描述:原来装完ubuntu系统之后,是可以直接上网的,是通过NAT方式上网的。具体区别不是很清楚。后来过了一段时间之后,发现这个已经不能解析域名了,但是还是可以访问域名对应的ip。说明是虚拟机得到DNS服务器有问题了。解决方法:打开vmware workstation的Edit-> Virtual NetWork editor, 可以看到有一个VMnet的列表。点中原创 2012-02-11 16:58:41 · 2090 阅读 · 0 评论 -
OmniORB 的简单使用例子
配置corba和vs2005结合的环境一、下载OmniORBhttp://sourceforge.net/projects/omniorb/files/VS2005下载omniORB-4.1.4-x86_win32-vs8.zip,VS2008下载omniORB-4.1.4-x86_win32-vs9.zip下载后解压到任意目录即可,本人解压后为D:/DevAssist/omniO转载 2012-08-15 17:54:51 · 6240 阅读 · 0 评论 -
一些RPC技术的资料
最近在网上搜集了一些RPC相关的技术,这里做一下总结,方便以后什么时候用到。RPC: 在课本里都说过,是远程过程调用的意思,是指分布在不同主机上的接口,RPC client可以调用RPC server端定义的一些接口,毕业的时候对于RPC也就了解这些。 在了解有哪些RPC技术之前,先来看看IDL。什么是IDL? 全名是接口描述语言,各种RPC技术都有自己的IDL的规范,各自原创 2012-08-17 16:21:25 · 1450 阅读 · 0 评论 -
windows查看文件被那个进程使用
在windows下面有时候,我们想删除某个文件然后系统弹出对话框说文件正在被使用,无法删除。这个时候,我们自然而然想到那么杀掉这个进程,但是怎么知道是那个进程在使用它呢?别急,微软提供的process Explorer就可以帮你查到。下载连接:http://download.sysinternals.com/files/Pro转载 2012-08-21 15:07:29 · 6965 阅读 · 0 评论 -
X-Y Problem
对于X-Y Problem的意思如下:1)有人想解决问题X2)他觉得Y可能是解决X问题的方法3)但是他不知道Y应该怎么做4)于是他去问别人Y应该怎么做?简而言之,没有去问怎么解决问题X,而是去问解决方案Y应该怎么去实现和操作。于是乎:1)热心的人们帮助并告诉这个人Y应该怎么搞,但是大家都觉得Y这个方案有点怪异。2)在经过大量地讨论和浪费了大量的时间后,热心的转载 2013-12-18 16:18:33 · 905 阅读 · 0 评论 -
git使用说明
1. 创建git项目 使用git的第一步是创建一个git项目。这一步需要在github网站上完成,在网站中创建一个全新的repository。如果我们之前在本地完成一个项目,想要将该项目发布到github,则此时新建的repository不要有任何文件,即使是README这样的文件,然后我们可以按照如下流程完成创建: a) cd localpro转载 2013-11-10 11:52:58 · 617 阅读 · 0 评论 -
LBS定位技术
LBS定位技术从方法上可分成三类:基于三角关系的定位技术、基于场景分析的定位技术、基于临近关系的定位技术(唐毅和杨博雄,2003)。本博文首先对基于三角关系的定位技术进行了介绍,并对其中的应用最广泛的代表GPS进行阐述。 一、基于三角关系的定位方法 该技术的基本原理很简单,可以抽象成如下问题:已知A、B、C三个点的坐标,以及该三点至D点的距离转载 2013-09-18 10:54:25 · 1283 阅读 · 0 评论 -
非常简单的Python HTTP服务
如果你急需一个简单的Web Server,但你又不想去下载并安装那些复杂的HTTP服务程序,比如:Apache,ISS等。那么, Python 可能帮助你。使用Python可以完成一个简单的内建 HTTP 服务器。于是,你可以把你的目录和文件都以HTTP的方式展示出来。佻只需要干一件事情,那就是安装一个Python。实际上来说,这是一个可以用来共享文件的非常有用的方式。实现一个微型的HTT转载 2012-08-08 15:28:58 · 1027 阅读 · 0 评论 -
HOW TO : Select column in Notepad++
Notepad++, is a great open source editor similar to EditPlus and UltraEdit. One of the features that I really appreciated in EditPlus, was the capability to select a column of data. I checked if Not转载 2013-06-12 23:26:24 · 790 阅读 · 0 评论 -
随机函数的伪随机
刚看到一个blooming filter 的hash函数的实现,里面用到了随机函数。protected int[] getHashIndexes(E obj) { int[] indexes = new int[numHashFunc]; long seed = 0; byte[] digest; try { MessageDigest md = MessageDigest.ge原创 2013-06-10 02:32:57 · 1511 阅读 · 0 评论 -
由开锁智力题得出一种求平方数的方法
题目: 在一条长长的走廊上依次排列着100把锁着的锁头。你从把这100把锁全部打开开始(第1遍)。然后,你把所有序号是2的倍数的锁头再锁上(第2遍)。接下来,你依次走到所有序号是3的倍数的锁头前,如果它是打开的,就把它锁上;如果它是锁上的,就把它打开——我们把这称为“切换锁头的状态”(第3遍)。你继续像这样在第N遍去切换所有序号是N的倍数的锁头的状态。当进行到第100遍时,你将只切换第100把锁头转载 2013-05-20 00:27:50 · 1515 阅读 · 0 评论 -
扔鸡蛋问题
问题: 有一幢100层的楼, 有一种鸡蛋,当从N楼的高度或则大于N楼的高度扔下来后会碎掉,当小于N楼时候没事。 现在给你两个鸡蛋去找到N, 要求在最坏的情况下扔的次数最少, 找到最少的次数?第一次尝试: 假设我们第一个鸡蛋以10层的单位扔, 当到40层的时候第一个鸡蛋碎了,那么第二鸡蛋从30层一层一层的扔,31, 32, ---, 39。那么着种扔法最好的情况是N= 1, 扔2次,翻译 2013-05-20 00:10:47 · 1385 阅读 · 0 评论 -
8*8矩形去掉左上角和右下角用1*2的矩形去填满
转自: http://blog.csdn.net/lzshlzsh/article/details/5913866去掉的如图1黄色方块所示图1. 辅助着色方案不可能填满的。如图1着辅助色。显然的,把1*2的矩形填在任何地方都会占用1红1绿,因此要想填满红绿方块数必须相等,现在绿比红多2,因此不可能填满的。转载 2013-05-19 23:18:09 · 1077 阅读 · 0 评论 -
Vmware虚拟机中的bridged、NAT、host-only
Vmware在网络实验和调式中我们经常用到.Vmware在安装时默认安装了两块虚拟网卡,VMnet1和VMnet8,另外还有VMnet0。这些虚拟网卡的配置都是由Vmware虚拟机自动生成的.它们是bridged(桥接模式)、NAT(网络地址转换模式)和host-only(主机模式)。要想在网络管理和维护中合理应用它们,你就应该先了解一下这三种工作模式。下面Yesure就简单地阐述转载 2012-12-08 10:29:45 · 639 阅读 · 0 评论 -
python中调用C++写的动态库
一、环境:Windows XP + Python3.21. dll对应的源文件(m.cpp):[cpp] view plaincopy#include extern "C" { _declspec(dllexport) int add(int a, int b) {转载 2012-09-27 15:44:57 · 1204 阅读 · 0 评论 -
基于朴素贝叶斯分类器的文本分类算法(上)
Preface 本文缘起于最近在读的一本书-- Tom M.Mitchell的《机器学习》,书中第6章详细讲解了贝叶斯学习的理论知识,为了将其应用到实际中来,参考了网上许多资料,从而得此文。文章将分为两个部分,第一部分将介绍贝叶斯学习的相关理论(如果你对理论不感兴趣,请直接跳至第二部分基于朴素贝叶斯分类器的文本分类算法(下)>>)。第二部分讲如何将贝叶斯分类器应用到中文文本分类,随转载 2010-09-30 15:10:00 · 1100 阅读 · 0 评论 -
MMSeg中文分词算法
Java中有一些开源的分词项目,比如:IK、Paoding、MMSEG4J等等。这里主要说的是MMSEG4J中使用的MMSeg算法。它的原文介绍在:http://technology.chtsai.org/mmseg/,是用英文书写的,这是只是它的一个中文笔记。 为什么中文要分词中文和英文的书写方式不一样,英文中单词之间用空格隔开,而且每个单词代表一个含义(当然也有短语,但这占的比例不转载 2012-09-27 17:00:37 · 2692 阅读 · 1 评论 -
于朴素贝叶斯分类器的文本分类算法(下)
文本分类算法的流程是:输入一篇文章,可以返回告诉用户这篇文章的分类,是IT,是娱乐,还是其他性质的?首先在Sogou的lab中获得一些trainning的数据,这些trainning的结构是在一个大目录下有很多的小目录: 汽车 财经 IT 健康 体育 旅游 教育 招聘 文化 军事在这些目录下有很多属于该类的文章,用于trainning用。转载 2010-09-30 15:48:00 · 757 阅读 · 0 评论 -
openMP的一点使用经验
最近在看多核编程。简单来说,由于现在电脑CPU一般都有两个核,4核与8核的CPU也逐渐走入了寻常百姓家,传统的单线程编程方式难以发挥多核CPU的强大功能,于是多核编程应运而生。按照我的理解,多核编程可以认为是对多线程编程做了一定程度的抽象,提供一些简单的API,使得用户不必花费太多精力来了解多线程的底层知识,从而提高编程效率。这两天关注的多核编程的工具包括openMP和TBB。按照目前网上的讨论,转载 2012-08-22 15:44:44 · 913 阅读 · 0 评论 -
LoadLibrary("TestOCX.ocx") failed-The specified module could not be found
用vc++开发的activex空间注册失败,用regsvr32 TestOCX.ocx注册时提示:LoadLibrary("TestOCX.ocx") failed-The specified module could not be found用depends察看TestOCX.ocx发现缺少一些文件从开发机器上拷贝对应的文件到测试机后再次depends时发现又缺少转载 2012-08-21 15:10:41 · 1015 阅读 · 0 评论 -
如何不重启电脑使得修改之后的环境变量有效
windows 系统版本: 在“我的电脑”->“属性”->“高级”->“环境变量”中增加或修改环境变量后,需重启系统才能使之生效。有没有什么方法可让它即时生效呢?下面介绍一种方法: 以修改环境变量“PATH”为例,修改完成后,进入DOS命令提示符,输入:set PATH=C: ,关闭DOS窗口。再次打开DOS窗口,输入:echo %PATH% ,可以发现“我的电脑”->“属性”->转载 2011-12-20 11:49:44 · 1502 阅读 · 4 评论 -
URL的井号
作者: 阮一峰日期: 2011年3月 9日去年9月,twitter改版。一个显著变化,就是URL加入了"#!"符号。比如,改版前的用户主页网址为 http://twitter.com/username改版后,就变成了 http://twitter.com/#!/username在我印象中,这是主流网站第一次将"#"大规模用于直转载 2011-12-04 20:06:58 · 497 阅读 · 0 评论 -
How browsers work - 浏览器是怎么工作的
原文: How browsers work讲解了FireFox,Chrome等开源浏览器的工作流程。希望对以后有帮助。译文: how Browsers work转载 2011-12-04 20:41:26 · 1901 阅读 · 0 评论 -
大型网站架构演变
<br /><br />之前也有一些介绍大型网站架构演变的文章,例如LiveJournal的、ebay的,都是非常值得参考的,不过感觉他们讲的更多的是每次演变的结果,而没有很详细的讲为什么需要做这样的演变,再加上近来感觉有不少同学都很难明白为什么一个网站需要那么复杂的技术,于是有了写这篇文章的想法,在这篇文章中 将阐述一个普通的网站发展成大型网站过程中的一种较为典型的架构演变历程和所需掌握的知识体系,希望能给想从事互联网行业的同学一点初步的概念,:),文中的不对之处也请各位多给点建议,让本文真正起到抛砖引玉转载 2010-12-08 14:33:00 · 426 阅读 · 0 评论 -
当前几个主要的Lucene中文分词器的比较
<br />1. 基本介绍:<br />paoding :Lucene中文分词“庖丁解牛” Paoding Analysis<br />imdict :imdict智能词典所采用的智能中文分词程序<br />mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器<br />ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理器分析模式<br /> <br /> <br />2. 开发者及开发活跃度:<br />paoding :qieqie.wang, google转载 2010-09-30 17:12:00 · 617 阅读 · 0 评论 -
SQL Server 2005启用sa账号
<br />启用sa用户和远程连接<br />菜单Start->Microsoft SQL Server 2005->Configuration Tools->SQL Server Configuration Manager<br />选中SQL Server 2005 Network Configuration<br />在右边的TCP/IP上点右键,enabled<br /><br />菜单Start->Microsoft SQL Server 2005->SQL Server Management S转载 2010-09-03 15:00:00 · 879 阅读 · 0 评论 -
大数据量,海量数据 处理方法总结
<br />大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。 <br /><br />下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。 <br /><br />1.Bloom filter <br /><br />适用范围:可以用转载 2010-08-29 10:48:00 · 596 阅读 · 0 评论