- 博客(44)
- 资源 (9)
- 收藏
- 关注
原创 怎么学习分布式系统
关于分布式系统怎么学课程6.824: Distributed Systems https://pdos.csail.mit.edu/6.824/ MIT: 纸上得来终觉浅,绝知此事要躬行知乎学习分布式系统需要怎样的知识?https://www.zhihu.com/question/23645117 老鸟讲怎么学习分布式系统论文The Google File System 惊异于如此
2016-07-06 18:45:15 2594 2
原创 阅读GFS论文
GFS论文发表距今已经十几年了,据之开源的hdfs也已经在业界得到了广泛应用。为了取得分布式系统的真经,拜读一下这篇经典论文。重要假设软硬件失败乃家常便饭我们写大文件,不屑小文件文件改动的主流是追加新数据,随机写是非主流一旦写完,仅会读取系统结构先整一张比较风骚的图再看一张正经图 那么你应该可以看出,系统就由四部分构成了文件由固定大小的chunk (64 MB) 组成 每个chunk
2016-06-15 14:55:16 1373
原创 scala类型限定
scala类型限定以类型下界限定举例,S>:T意味着: 如果传入一个参数S,其类型与T相同,或者是T的父类型,那么将会使用类型S。如果传入一个类型T的子类型,那么将会使用类型T。下面以代码来说明类型下界限定。 首先定义一个链表类:case class ListNode[+T](h: T, t: ListNode[T]) { def head: T = h de
2016-06-01 16:54:54 941
原创 Antlr代码生成及命令行验证
什么是AntlrAntlr广泛应用于编程语言解析,但并不限于程序语言,实际上只要定义好语法规则,几乎无所不能,twitter的查询串解析就使用Antlr。Antlr使用很简单,第一步:定义语法文件,*.g4; 第二步:使用Antlr工具包生成解析代码,目前支持生成java, python, c#…当然对于解析程序语言来说,自己定义语法,那就太费劲了,实际上已经有人做好了,我们就不要重复造轮子了。各种
2016-05-16 20:42:10 6396
原创 基于virtualbox安装spark-yarn-cluster
打算自己玩玩spark-yarn-cluster,公司的环境是别人装的,没有亲自搞一遍,总觉得心里不踏实。另外一个重要的原因是,公司的服务器性能比较强,这样spark任务不容易暴露性能问题或者内存溢出,反而不便于深入学习spark。0. 环境 hp ProBook, intel core i3-4030u 1.9Ghz,伪四核,实际应该是双核,8G内存; windows7 旗舰版;
2016-03-24 20:34:03 2138 1
原创 如何构建停用词列表
在实际使用机器学习文本分类算法(比如lda, bayes, k-means)的过程中,会发现文档的预处理非常重要,如果包含太多杂词,则算法效果往往会大打折扣。预处理中,停用词过滤是非常关键的一步,但就目前而言,并没有完全自动一步到位的实现,而且针对不同领域停用词可能还有变化。但是大体有些规律可以遵循,加上人工干预,应该能达到不错的效果。 下面是一些可行的停用词过滤方法,供参考:
2016-01-26 16:18:49 6812
原创 Spark LDA 主题预测
本文主要对使用Spark MLlib LDA进行主题预测时遇到的工程问题做一总结,列出其中的一些小坑,或可供读者借鉴。关于LDA模型训练可以参考:Spark LDA 主题抽取开发环境:spark-1.5.2,hadoop-2.6.0,spark-1.5.2要求jdk7+。语料有大概70万篇博客,十亿+词汇量,词典大概有五万左右的词。模型准备利用spark mllib LDA进行主题预测需要训练好的L
2015-12-23 11:37:17 5831
原创 Spark LDA 主题抽取
本文主要对使用Spark MLlib LDA进行主题抽取时遇到的工程问题做一总结,列出其中的一些小坑,或可供读者借鉴。关于LDA的具体理论等可以自行google。主题预测请参考:Spark LDA 主题预测开发环境:spark-1.5.2,hadoop-2.6.0,spark-1.5.2要求jdk7+。语料有大概70万篇博客,十亿+词汇量,词典大概有五万左右的词。训练语料代码:apache/spar
2015-12-22 20:26:44 10480 10
原创 C++ 虚函数表
其实关于C++虚函数表的原理和实现,网上的文章可谓汗牛充栋,我写这篇文章的目的不是为了狗尾续貂,其实是为了推荐两篇文章,以便于读者参考,这两篇文章结合起来读,大体可以理解虚函数表的原理和使用示例代码验证。 参考1):C++ 虚函数表解析。该文对于虚函数表的实现讲解的非常清楚。 参考2):我对C++ VTable 的理解 - theCFan的专栏 - CSDNBlog
2013-09-03 11:26:18 1061
转载 有理想的程序员必须知道的15件事
出处已经不详了。 作为程序员,要取得非凡成就需要记住的15件事。1、走一条不一样的路 在有利于自己的市场中竞争,如果你满足于“泯然众人矣”,那恐怕就得跟那些低工资国家的程序员们同场竞技了。2、了解自己的公司 以我在医院、咨询公司、物流企业以及大技术公司工作的经验来看,这一点所言不虚。不同公司的运营模式差异极大。如果你理解企业的运营模式,那你
2012-02-13 01:18:08 554
转载 牢记职场生存中的10大职业铁律 让你受用一生
信源:大旗网|编辑:2011-06-05| 网址:http://www.popyard.org (被墙)1、如果你不喜欢现在的工作,要么辞职不干,要么就闭嘴不言。初出茅庐,往往眼高手低,心高气傲,大事做不了,小事不愿做。不要养成挑三拣四的习惯,处处表现出不满的情绪。记住,不做则已,要做就要做好。2、写出你一生要做的事情,把单子放在皮夹里,经常拿出来看。人生要有目标,要有计划
2012-02-13 01:07:42 807
转载 改善 C#程序的建议4:C#中标准Dispose模式的实现
转自: 改善 C#程序的建议4:C#中标准Dispose模式的实现 需要明确一下C#程序(或者说.NET)中的资源。简单的说来,C#中的每一个类型都代表一种资源,而资源又分为两类:托管资源:由CLR管理分配和释放的资源,即由CLR里new出来的对象;非托管资源:不受CLR管理的对象,windows内核对象,如文件、数据库连接、套接字、COM对象等;
2012-02-10 11:40:46 494
转载 .Net下的线程同步:Part 6 of N--(避免锁定不恰当的同步对象)
本文转自:改善C#程序的建议8:避免锁定不恰当的同步对象 在C#中让线程同步的另一种编码方式就是使用线程锁。所谓线程锁,就是锁住一个资源,使得应用程序只能在此刻有一个线程访问该资源。可以用下面这句不是那么贴切的话来理解线程锁的作用:锁,就是让多线程变成单线程。在C#中,可以将被锁定的资源理解成new出来的普通对象。既然需要锁定的资源就是一个C#中的对象,我们就该仔细思
2012-02-09 13:30:10 588
原创 .Net下的线程同步:Part 5 of N--(Interlocked && Volatile...)
其它同步对象Interlocked"A statement is Atomic if it executes as a single indivisible instruction. Strict atomicity precludes any possible preemption. In C#, a simple read or assignment on a fiel
2012-02-08 22:09:18 995
原创 .Net下的线程同步:Part 4 of N--(Locks or Critical sections)
Locks(或者Critical sections) 锁定是一种一次只允许一个线程进入特定代码区段的机制,通过加锁实现。被锁定的代码区段称为critical section(关键区域)。锁定一段代码的方式有多种,下面将一一介绍。在介绍前,我们先来看看什么情况需要锁定:using System;using System.Threading;namespace NoLock
2012-02-08 21:40:52 555
原创 .Net下的线程同步:Part 3 of N--(Mutex)
MutexMutex的工作原理与lock关键字基本相同,因此在这里就不多介绍。但Mutex与lock和Monitor的最大不同在于其可以作用于多个进程,可以提供进程间同步。单实例运行Mutex一个最广泛的运用就是使程序只能有一个实例在运行。下面这段代码实现了单实例运行,先打开一个实例,再打开一个实例时由于前面实例的存在则会直接退出。using System;using S
2012-02-08 21:07:21 1225
原创 .Net下的线程同步:Part 2 of N--(Semaphores)
SemaphoresSemaphore 继承自System.Threading.WaitHandle,因此,你可以调用WaitOne(),视情况需要也可以调用WaitAny(),WaitAll(),SignalAndWait()等函数。Semaphore 就其用法而言,与夜店(国外)的运营方式很像。夜店有容量上限,由门卫确保,当满员时,外面的人不允许再进入,直到有一个人出来,才
2012-02-08 18:00:42 647
原创 .Net下的线程同步:Part 1 of N--(EventWaitHandle:AutoResetEvent and ManualResetEvent)
写本系列的想法源自: 改善 C#程序的建议6:在线程同步中使用信号量,但是其中只是提到了AutoResetEvent、ManualResetEvent的用法,我觉得不够全面,因此想对.net下的同步方法做个逐一介绍。 本文主要参考:Beginner's Guide to Threading in .NET: Part 3 of n,可以说是对于原文修改再加上个人理解和拆分后的译作
2012-02-08 17:35:49 852
转载 为程序员量身定制的12个目标--2)
7)关注安全 很少有程序员具备好的安全习惯。如果你对自己的数字安全很在意,你就会对你写的代码安全性更加关心。确保你在每个站点都使用了唯一的高安全系数密码。使用加密的密码管理器来管理你的密码,例如PasswordSafe 或者KeePassX。如果你还没有对整个磁盘加密,留出时间完成它。(在 Mac 上可以轻松完成) 每年都要研究过去 12 个月中前 10 位的安全漏洞。他们是如
2012-02-08 11:12:51 586
转载 为程序员量身定制的12个目标--1)
转自博客园:http://kb.cnblogs.com/page/128559/英文原文:12 resolutions for programmers 对程序员们来说挑战自我非常重要,要么不断创新,要么技术停滞不前。新年伊始,我整理了 12 个月的目标,每个目标都是对技术或个人能力的挑战,而且可以年复一年循环使用。变得有耐心保持健康拥抱变化带来的不适应学习一门新的编程语言自动化学
2012-02-08 11:08:31 501
原创 On Not "using System.Collections.Concurrent"
先看看微软官方文档上的说明吧: "TheSystem.Collections.Concurrent namespace provides several thread-safe collection classes that should be used in place of the corresponding types in the System.Collections and Sys
2012-02-07 10:56:24 934
翻译 .Net Framework下Timer类之对比
原文:http://msdn.microsoft.com/en-us/magazine/cc164015.aspx原作者:Alex Calvo,is a Microsoft Certified Solutions Developer for .NET. When he's not reading, coding, or meditating, he's playing guitar. You
2012-02-05 17:20:03 851
原创 ZedGraph 与Scrollbar
注:笔者ZedGraph的使用背景,需要长时间测试(24小时),自行存储文件(图形数据文件会有几百M),周期性地删除ZedGraph 数据系列里超时的数据点,以提升性能。当用户拖动查看历史数据时,则从存储文件里读取相应数据。 在使用ZedGraph 绘制实时数据系列时,用户一方面需要图形自行实时滚动,另一方面还需要查看历史数据,这时可以使用控件默认的鼠标加键盘来配合进行拖动,
2012-01-13 15:18:35 2712 8
转载 新晋亿万富翁的十大成功准则
原文链接地址:点击打开链接鲍勃•帕森斯(Bob Parsons)最出名的可能是作为GoDaddy Girls比基尼女郎们身边的男士,这些丰满性感的女郎是为他的域名注册公司GoDaddy.Com代言的模特。 现在他有了引人注意的新头衔:亿万富翁。私募股权公司Kohlberg Kravis Roberts和SilverLake Partners
2012-01-05 15:46:19 1788
转载 2012年开发者该做的11件事
2011年即将结束,2012正在靠近。你是否在专业领域给自己设定2012的目标?不管你的答案如何,我相信下面列出的11条建议里面总有一两条适合你。1.使用Twitter——如果你是一名程序员,如果你还没有使用Twitter,你就out了。不是说你有多少粉丝,而是在Twitter上你可以更快的得到问题的答案,获取你关注的话题的最新资讯。 (作者没有考虑到天朝的程序员们)2.经常阅读S
2011-12-31 00:37:27 559
转载 防止反复提交窗体(PHP)
原文:Preventing Multiple Submits原文链接:http://www.phpro.org/tutorials/Preventing-Multiple-Submits.html摘要:在Web页面中如何防止用户反复提交某个窗口内容,并且从一定程度上提高安全性。开发语言为PHP。The problem of multiple form submissions i
2011-12-31 00:26:26 1196
原创 Google Toolbar(fireofox)登录问题
最近,登录google toolbar后尽管可以登录googel账户,但是书签和gmail等在toolbar上的标签并不能正常登录。纠结了好久,才在网上搜索到原来是google做了手脚。原因是google改变了其工具栏的登录地址。Google changed the lo
2011-09-25 17:04:11 844
原创 c++静态成员函数与线程同步(static member functions and thread-safety)
如果C++的类中含有静态成员函数,那么该如何考虑其线程安全性呢?见下面实例:class CData{public: static void func() { int a; static int b; }
2011-09-08 10:51:48 1992
转载 提高编程技巧的十大方法
【CSDN编译】本文为开发者总结了提高编程技巧的十大方法,为开发者学习编程加以点拨、指明捷径,有了技巧,在编程时能帮助你事半功倍。1.学习一门新的编程语言(Learn a new programming language)学习一门新的编程语言将有助于你开拓新的思维方式,特
2011-09-07 22:56:22 417
原创 十大最有影响力编程书籍
As voted on by several thousand members of StackOverflow in this articlehere.The original question was:"If you could go back in
2011-09-07 21:13:41 838
原创 big-endian 与 little-endian 以及网络字节序
我不打算详细论述这个问题了,仅在这里提供我找到的几篇不错的介绍这个问题的文章在这里供大家参考。 1.Writing endian-independent code in C:点击打开链接 2.Unde
2011-09-07 18:50:05 641
原创 线程与进程
不久前看《The Art Of Unix Programming》。其中有一个小节叫做"Threads —Threat or Menace?"。其中作者从Uinx的开发传统,对多线程的开发模式提出了一些批评。主要是认为多线程带来了同步,死锁,调试困难以及性能等问题。这些确实是在多
2011-08-19 16:08:58 391
原创 UdpClient 与Dispose
最近在.net Winform下面使用UdpClient ,将其作为其中一个子类(设为A)的成员变量,A根据用户操作,而可能会被反复创建和销毁多次。在用户反复操作的过程中,会出现"通常每个套接字地址(协议/网络地址/端口)只允许使用一次"错误。这是由于UdpClient 没有被销
2011-07-29 12:55:15 1466
原创 开源图形控件-ZedGraph
最近在做一个小软件,需要绘制实时采集的数据。由于开发平台是.NET4和VS2010,所以自然的采用了Windows下的Charting控件。微软的东西确实是功能齐全,上手也比较快。但是用了一阵之后,发现两个问题:1)长时间测试后性能较差,会耗用较高的CPU(软件采集数据可能持续1
2011-07-24 23:08:34 3177
转载 程序员能力矩阵
Programmer Competency MatrixNote that the knowledge for each level is cumulative; being at level n implies that you also know everything from the levels lower than n. Computer Science 2n(Level 0)n2(Level 1)n (Level 2)log(n) (Level 3)Commentsdata structures
2010-11-07 01:24:00 757
转载 .NET 程序员开发利器合集——(Tools and Utilities for the .NET Developer)
You can reach this page anytime at http://tools.michaelcrump.netThanks to everyone that has contributed so far, we are getting several thousands hits from all sorts of developers a day. Recent Contributors include: Deependra Solanky, Grant, Klaus, James,
2010-11-07 01:17:00 5648
转载 五种最佳文件加密工具 (Five Best File Encryption Tools)
File encryption is your best bet if you want to keep The Man, foreign spies, or your annoying roommates out of your files. Here's a look at five of the most popular encryption tools Lifehacker readers use to lock down their files. Image a composite
2010-11-03 11:12:00 2797
原创 Visual C# Office自动化Excel进程残留问题
在进行客户端编程时,经常需要进行office自动化操作,其中对于Excel使用大概又是其中最为频繁的。不过,让大家颇为郁闷的是,经常会有excel进程不能被正常关闭。不论大家怎样小心或者是单步跟踪来找问题,总是会有未被释放的com object 。我个人感觉这不能不说是office自动化的一个瑕疵,功能已经很傻瓜了,而其使用却又需要这么谨小慎微。 以前在使用VC++6.0时,就经常会遇到这个问题,最近升级到VS2010,改玩C#了,本以为由于自带的GC功能而能自动解决这个问
2010-08-15 16:03:00 2109
转载 我心目中的编程高手(完整版,转载)
-- Bill Joy MIT BBS上说微软电话面试的一道题就是“Who do you think is the best coder, and why?”。我觉得挺有意思的,也来凑个热闹。排名不分先后。心目中的编程高手 (1) Bill Joy, 前任Sun的首席科学家,当年在Berkeley时主持开发了最早版本的BSD。他还是vi和csh的作者。当然,Csh Programming Considered Harmful 是另一个话题乐。据说他想看看自己能不能写个操作系统,就在
2010-08-01 22:32:00 1218
(程序结构及其理解)Structure and Interpretation of Computer Programs
2011-08-24
windows_forms_programming_in_csharp.chm
2010-08-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人