- 博客(38)
- 收藏
- 关注
原创 Statistical Machine Translation Tutorial Reading
The following is a list of papers that I think are worth reading for ourdiscussion of machine translation. I've tried to give a short blurb abouteach of the papers to put them in context. I've inc
2014-08-26 11:44:48 674
原创 配置python命令tab键自动补全
1.edit and configure pythonstartup file# python startup fileimport sysimport readlineimport rlcompleterimport atexitimport os# tab completionreadline.parse_and_bind('tab: com
2014-08-26 11:41:35 507
转载 2011年影响中国通信行业发展的十件大事
2011年,通信行业的大事不少,一些足以影响未来五年甚至十年的发展: 1、乔布斯抛下苹果先登船而去,让整个IT行业震撼,也让苹果的未来出现了太多的变数,甚至直接影响到了中国通信市场格局; 2、谷歌收购了摩托罗拉,软硬结合的模式又出现了另外一个巨无霸,互联网企业已经强大到如此地步,中国的互联网公司也尽显霸气,纷纷出手移动互联网终端与业务融合; 3、诺基亚与微软联合,并在
2014-08-26 11:39:50 551
转载 2011年9大破产科技预言
导语:美国科技博客BusinessInsider今日发表文章,列出了在2011年破产的9大糟糕预言,如Flash将在移动设备上大行其道,惠普和PC业务说再见,谷歌缺席社交网络,诺基亚智能手机战略失误等。以下为文章内容摘要:在高科技市场,经常有新的产品创意诞生,但同时又伴随着这些创意的失败。不知是否还记得下列预言:类似于Pointcast的“推送”媒体将取代互联网,每个人都将
2014-08-26 11:38:39 699
原创 Natural Language Processing With Python (1)
Chapter 1:Easy, just using some API.Important API : FreqDist(). Some natural language understanding technologies : Word Sense Disambiguation, Pronoun Resolution, Generating Languge Output,
2014-08-26 11:37:35 637
转载 Google搜索的用法
Google是我们这个时代最伟大的产品之一。有了Google,本质上谁都有能力做“research”(研究)——“research”在今天已经不再像许多年前那样是少数“精英”的专利了。我常常告诉我的学生,“research”其实一点都不神秘;所谓的“research”其实只不过是“search, search, and… REsearch!”在中文里,“research”除了“研究”之外还可以
2014-08-26 11:34:26 555
原创 Natural Language Processing With Python (2)
Chapter 3:This chapter describes the skill to process raw text.Some important point:1. Access text from web and disk : api such as urlopen(), open(), read(), write() and some string operat
2014-08-26 11:34:25 710
转载 北京户口的知识
转载自北邮论坛:因 为自己解决户口的决心非常大,前段时间好好补习了下这方面的知识,也接触了一些渠道,总算对户口这茬有所了解,最近经常被人问到户口的事情,发现有必要扫 下盲,现将我了解的信息整合汇总如下,除了引用一些比较好的文章(由于参考文献较多,不再列出这些好人,这里一并表示感谢了,呵呵),也写出了自己的一些 看法,欢迎大家一起讨论并补充,如有不当之处,请务必指出来,有啥问题也可以留言交流
2014-08-26 11:20:54 2914
原创 交通工具的未来
本人在广州生活四年,深感广州公交和地铁之扯淡,每日无论是公交还是地铁,皮贴皮、脸贴脸是必然之事。放之四海,可见大多数大城市的交通早已在超负荷工作,北京和上海的堵车早已经见怪不怪了,更有很多上班族每天已经习惯把自己的上班时间提前30分钟以抵消堵车带来的延迟。本人甚是奇怪,为何国家不花时间和精力去发展空中交通,而却把大把的钱投入到云计算中去,如果把几百亿几百亿的人民币放在空中交通中,我相信这个所获
2014-05-27 16:23:56 960
原创 各大知名企业的Research展示
大公司為了要拉開彼此的差距, 除了專注於目前的產品外, 都會為了未來做準備, 而這些研究通常都會做一個 Research 的專區來呈現成果, 如下述列表:Google ResearchYahoo! ResearchThe Facebook ProjectMicrosoft Research - Turning Ideas into Reality微軟亞洲研究院IBM
2014-05-08 19:18:46 683 1
原创 overview search algorithm
Search algorithmFor searching virtual spaces :brute-force search :heuristics search : beam search : stack decoding searchlocal search : the steepest descent or best-first crite
2014-05-08 19:16:46 575
原创 Natural Language Processing With Python (3)
Chapter 4something about python basic:(1)A list is typically a sequence of objects all having the same type, of arbitrary length. Mutable.(2)A tuple is typically a collection of objects of
2014-05-08 19:15:07 930
转载 Franz Josef Och, Google's translation uber-scientist, talks about Google Translate
对NLP及MT牛人OCH的采访:This week we wrote about Google's Translate application and how it could eventually change the way people communicate, overcoming the language barriers that have long separated h
2014-05-08 19:13:17 1161
转载 Machine learning and Classifier from Wiki
Wiki真是一个好东西,什么知识点都列得清清楚楚,简直就是一本万能的书。。。learning and Classifier from Wiki" title="Machine learning and Classifier from Wiki" style="margin:0px; padding:0px; border:0px; list-style:none; color:rgb(50,62,
2014-05-08 19:10:22 1085
转载 ubuntu vim中文乱码问题
转载: 添加中文字符编码:$sudo vim /var/lib/locales/supported.d/local#添加下面的中文字符集zh_CN.GBK GBKzh_CN.GB2312 GB2312zh_CN.GB18030 GB18030使其生效:$sudo dpkg-reconfigure locales
2014-05-08 19:08:38 679
原创 vi 快捷键记录
b -> 光标向前移动上一个单词词头 e -> 光标向后移动下一个单词的词尾大写V -> 选中当前行viw:选择光标所在的单词(v进入visual模式,然后iw) yiw:复制光标所在的单词 查找的话就是两个很常用的明令:# 和 * VIM格式化代码(1) 按两下小写g,即gg,定位光标到第一行。(2) 按住Shift+v,即大写
2014-05-08 19:06:18 495
转载 Google要回来了?
一下转载自其它网站,不知可信否:曾一度淡出中國網路市場的全球搜尋引擎龍頭Google,在經過兩年的隱忍之後,日前宣布將重返中國市場,不但要增加在中國的投資與人員擴編,而且會另闢戰場,計畫將Android Market引進中國,瞄準智慧型手機與平板電腦用戶的廣大商機。 Google亞太區總裁Daniel Alegre表示,公司計畫在中國聘用更多的工程師、業務人員與產品經理,而
2014-05-08 19:05:07 567
原创 Moses搭建过程遇到的一些问题与解决
本人是按照这个链接 http://blog.csdn.net/csdidi/article/details/6200513 来安装 Moses, 但在安装过程仍然出现很多问题,记录如下: 安装Moses的需要的工具有 GIZA++, mkcls, SRILM, 分词工具(我用的是ICTCLAS)1. 安装SRILM需要 gawk, make, tcl,提前安装,
2014-05-08 19:03:23 1043
原创 运行 Moses 期间遇到的问题
一. 处理原始语料,我用的语料是http://mitel.ict.ac.cn/mteval/data/train.xml.gz中的30万句对1. 用python里面的ElementTree 将XML文件解析出来并分成ch和en两个文件(注意,该语料本身是有问题的,有些标记没有匹配,需要先用正则进行修改。另外,需要先用notepad 将语料转换成utf-8,并在XML文件的第一行写上,再在p
2014-05-08 19:01:13 761 1
转载 C++著名程序库(转)
C++著名程序库的比较和学习经验(转自校内,虽然不是搞C++的,但了解一些基础的还是很有必要)1、C++各大有名库的介绍——C++标准库 2、C++各大有名库的介绍——准标准库Boost 3、C++各大有名库的介绍——GUI 4、C++各大有名库的介绍——网络通信 5、C++各大有名库的介绍——XML 6、C++各大有名库的介绍——科学计算 7、C++各大有名库的介
2014-05-08 18:59:39 490
原创 2012年03月26日
利用对数线性模型进行词对齐训练的整个过程:1、语料预处理用python解析xml,生成src, trg, ref, srcTest, trgTest 和 refTest。注意:由于本人是在linux下进行的预处理,所以要先将所有语料用notepad转换为与我的linux系统的编码相同(如uft-8),再将xml用dos2unix命令进行转换,,最后再用python解析,解析
2014-05-08 18:58:04 489
转载 ipv6与远程登录
首先,在服务器端正确配置启用远程桌面服务,然后是在两端的机器上都安装IPv6协议,可以图形化的在“网络链接”中配置,也可以是命令行: ipv6 install (旧,XP, win7则自动安装好了IPv6)或者 netsh interface ipv6 install (新,XPsp2、2003及以上)然后在服务器端机器上执行命令行,添加一条规则:netsh interface port
2014-05-08 18:56:40 3432
转载 char、wchar_t、T_char
从字符到整数char是一种整数类型,这句话的含义是,char所能表示的字符在C/C++中都是整数类型。好,接下来,很多文章就会举出一个典型例子,比如,'a'的数值就是0x61。这种说法对吗?如果你细心的读过K&R和BS对于C和C++描述的原著,你就会马上反驳道,0x61只是'a'的ASCII值,并没有任何规定C/C++的char值必须对应ASCII。C/C++甚至没有规定char占几位,只
2014-05-08 18:53:12 742
原创 写一网络爬虫有感
经验有三:1、多线程的程序要注意全局变量的读写要加锁2、用core dump文件解决程序的莫名崩溃问题3、用valgrind解决内存泄露问题4、用gdb调试多线程程序
2014-05-08 18:49:38 780
转载 关于混合高斯、EM和K-means
与k-means一样,给定的训练样本是,我们将隐含类别标签用表示。与k-means的硬指定不同,我们首先认为是满足一定的概率分布的,这里我们认为满足多项式分布,,其中,有k个值{1,…,k}可以选取。而且我们认为在给定后,满足多值高斯分布,即。由此可以得到联合分布。 整个模型简单描述为对于每个样例,我们先从k个类别中按多项式分布抽取一个,然后根据所对应的k个多值高斯分布中的一个生
2014-05-08 18:33:45 933
转载 NLP好文章
最近把一些在网上见到的自然语言处理的资源整理了一下,包括论文列表、软件资源和一些实验室主页、个人主页等,希望能对NLP研究者有所帮助,由于个人视野有限,目前只整理了这些,以后会持续更新。在此也感谢这些资源的提供者和维护者。转载请标明出处(http://blog.csdn.net/xuh5156/article/details/7437475)论文、博客1. Go
2014-05-08 18:28:54 1069
转载 有用的工具
以下工具绝大多数都是开源的,基于GPL、Apache等开源协议,使用时请仔细阅读各工具的license statementI. Information Retrieval1. Lemur/IndriThe Lemur Toolkit for Language Modeling and Information Retrievalhttp://www.lemurproject.org/
2014-05-08 18:26:18 1882
转载 more tools
机器学习Support Vector MachineSVMlightAn implementation of Vapnik's Support Vector MachineLIBSVMA Library for Support Vector MachinesDecision TreeC4.5Th
2014-05-08 18:22:11 1086
转载 代码测试、调试、优化相关知识
代码测试、调试与优化小结 by falcon2008-02-29 代码写完以后往往要做测试(或验证)、调试,可能还要优化。 关于测试(或验证),通常对应着两个英文单词verification和validation,在资料[1]中有关于这个的定义和一些深入的讨论,在资料[2]中,很多人给出了自己的看法。但是我想正如资料[2]提到的: “The d
2014-05-04 16:00:04 665
原创 vs创建和调用dll和lib经验
学习了一下,中间还是有不少细节要注意,特此记录一:生成DLL1:创建DLL工程 文件->新建->项目->visual c++->win32->win32控制台应用程序(win32项目也可以) 填写项目名称MyDLL->确定->下一步->DLL(附加选项 对空项目打钩)->完成。 到这里DLL工程就创建完毕了,下面新建两个文件My
2014-05-04 15:47:22 592
原创 利用python调用外部的dll或者so文件,碉堡了
http://www.linuxany.com/archives/1266.html链接中讲的是so文件,同样的,对于dll文件也完全可以用,关键就是ctypes这个库,碉堡了这样完全可以靠python来做前台脚本(如UI),c++来做后台算法当然,除了调用外部的程序外,也可以把c++写成python的扩展模块来调用,见下面链接http://blog.c
2014-05-04 15:32:42 1941
原创 学习git
最近觉得版本控制挺重要的,学一学百度了一下:(这个有点啰嗦,不过可以快进看完)http://video.baidu.com/v?word=Git����&ct=301989888&rn=20&pn=0&db=0&s=0&fbl=1024书:http://shop.oreilly.com/product/9780596520137.do
2014-05-04 15:31:12 2930
原创 PRML阅读记(3)
继续啃PRML第八章:Basic notation:node --> random variable or group of random variableslink --> probabilistic relation shipnotation of random var and non-random var, observed and unobserved var
2014-05-04 15:21:14 606
原创 PRML阅读记(2)
继续PRML第二章:Binary Variables:Bernouli Distribution, binomial distributionconjugate prior --> beta distributionMultinomial Variables:multinomial distributionconjugate prior -->
2014-05-04 15:18:37 915
原创 PRML阅读记(1)
最近刚刚看完Ng的machine learning,想再加一点料,于是拿起PRML,开始啃。。。第一章:Polynomial Curve Fitting:regression, error function, RMS(root-mean-square),overfitting Probability Theory:many distributio
2014-05-04 15:14:37 919
转载 在线代码编辑器
多个在线代码编辑器(转自http://www.7mdm.com/157.html):1、http://codepad.org/ 推荐星级:★★★★是否需注册:否(注册的话也很快,几秒钟而已)优点:网页界面简洁,一目了然,适合手机浏览器。且支持C,C++,D,PHP,PYTHON,Perl,Ruby等十几种编程语言,非常强大。查看执行结果时,高亮显示代码。
2014-05-04 15:11:37 835
原创 git权威指南读书笔记(一)
开始阅读git权威指南第一章:1、diff和patch的联合使用2、cvs -> svn -> git第二章和第三章:废话太多,过第四章:命令:git --versiongit config 和 git config--global 和 git config --system 三种命令
2014-05-04 15:07:07 875
原创 观王垠有感
今天闲着无聊,偶然看见王垠的简单介绍,怀着好奇心看了他的相关经历,看完有不少触动,再加上自己的最近对于未来也有很多想法,于是记下一笔。王垠主要写过几篇文章,让他出名的包括《完全用linux工作》、《写给支持和反对的人们》、《清华梦的粉碎--写给清华大学的退学申请》前两篇我没读,我读了后一篇,以及他在cornell的一篇。如果我是在两年前读他这些文章,我想我应该不会有任何感觉
2014-05-04 14:59:45 952
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人