自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ArthurYang

菜鸟一枚,走在通往大神的路上

  • 博客(17)
  • 收藏
  • 关注

原创 NLP Paper Crawler

NLP Paper Crawler一个简单的爬虫程序,主要针对自然语言处理方向的学者方便获取 Aclweb.org 上面与研究方向相关的论文。自己在 heyuce 师兄的 1.0 版本的基础上加上了 GUI 界面以及多线程下载。用 Python 2 写的,基于 PyQt4 的可视化界面。

2015-02-18 02:37:32 504

原创 word2vec 中文训练小试牛刀

word2vec 中文训练小试牛刀所用语料: 1998年人民日报语料,北京大学提供。 测试环境: Ubunt 14.10下载好的语料已经是分好词的,把词性标注去掉就直接用作词向量的训练了。总大小 8.2 MB。由于训练语料库的特殊性,算出来的 distance 很有意思,如下:

2015-02-09 00:36:22 723 1

转载 斯坦福大学自然语言处理第五课“拼写纠错(Spelling Correction)”

一、课程介绍斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chirs Manning教授授课:https://class.coursera.org/nlp/以下是本课程的学习笔记,以课程PPT/PDF为主,其他参考资料为辅,融入个人拓展、注解,抛砖引玉,欢迎大家在“我爱公开课”上一起探讨学习。课

2015-01-22 14:44:16 1827

原创 CodeForces 506 Div.1 A. Mr. Kitayuta, the Treasure Hunter

A. Mr. Kitayuta, the Treasure Huntertime limit per test1 secondmemory limit per test256 megabytesinputstandard inputoutputstandard outputThe Shuseki Islands are

2015-01-19 20:17:18 756

原创 《统计学习方法》学习笔记

最近把李航的《统计学习方法》看完了,感觉很不错,从概论到各个统计方法,由易到难层层推进,每个方法都有详尽的数学公式推倒,感觉很适合有一定数学功底的人作为机器学习入门来看。可惜本人自幼愚钝,资质欠佳,以前学的概率论与数理统计的知识都忘得差不多了,看得云里雾里的,前面还好,越到后面越看不明白,遇到不懂的就上网查资料、翻书。好歹囫囵吞枣的全部看完了,也是收获颇丰。        (以下内容纯属本人胡

2015-01-18 15:59:03 1604

原创 错别字分析——自建错词库

前几天帮师兄弄一个错词库,网上找了半天都没有,就自己动手浏览各大论坛、贴吧,自己鼓捣了一个极少的错词库,共200+的错词,分成两个txt文档,有需要的可以拿来下载使用。文件格式:错误-正确\t[错误]例句\t[正确]例句\n例子:结帐-结账 喝的差不多了人家来[结帐]喝的差不多了人家来[结账]传送门:https://github.com/Rrbsmoy/NLP/tree/maste

2015-01-08 14:47:12 6025 1

原创 针对原文章中不礼貌言行特此道歉

此篇文章

2014-11-04 17:13:18 454

原创 2014年黑龙江大学ACM/ICPC程序设计大赛 牢骚贴

上周比了我们学校的校赛

2014-04-26 11:50:58 1223

原创 POJ 3026 Borg Maze (最小生成树 + BFS)

将S点和A点看做是相同的(其实也没有任何区别),从S点和每个A点做BFS,算出到其他点的最短距离,再用Prim算法算最小生成树(Prim适合稠密图)。此题主要考代码掌控能力,对多个算法的拼接,考的算法都很基本。#include #include #include #include #include #include #include #include #include #

2014-03-26 14:02:17 494

原创 POJ 最短路径

这两天做了六道最短路径的问题,分别用了Dijkstra算法、SPFA算法和Floyd算法,甚至还有一道题用并查集做的也A了,感觉对短路径已经学得很不错了。poj1860,poj3259,poj1062,poj2253,poj1125,poj2240POj2253,Dijkstra和并查集都可以。Dijkstra算法改变一下dis数组存的内容,计算方式也要相应的变一下。Dijkstr

2014-03-25 20:21:38 716

原创 poj 1860 Currency Exchange (SPFA)

终于真正明白dijkstra算法和Bellman-Ford算法了。Bellman-Ford算法的优势在于图中权值可以为负,缺点就是复杂度太高,但可以用队列优化,优化后就是SPFA算法了。并且可以判定图中是否有负环。Bellman-Ford算法判定负环就是看在执行完V-1(V为图中点的个数)次松弛操作后能否再进行松弛操作,如果可以的话必定有负环,因为无负环图在进行完V-1次松弛操作后必定为最

2014-03-23 17:29:36 702

原创 3.14

3.141592653589793238462643383279502884197169399

2014-03-14 13:51:53 603

原创 ZOJ 3732 2013 ACM/ICPC 长沙赛区现场赛G题 Graph Reconstruction (图论)

题意:给出n个点的度数,构造出符合度数的简单图(即没有自环和重边),如果有多解输出两个。        思路:利用Havel-Hakimi定理,大学离散数学学的,不知道的大学生可以面壁思过去了。传送门:Havel-Hakimi定理        Havel-Hakimi定理的构造过程:                1、按度数排序。                2、每

2014-02-21 23:55:01 817

原创 培训伊始

寒假培训又开始了。最近做题越来越没有章法了,AC自动机、DP+状态压缩、线段树啥的乱七八糟的一堆,都是些入门题,可见水平还是很菜。也不知道要做哪类的题,网上比赛还是高不成低不就。算了,继续刷题吧,希望有质变的那天,Div.1打败天下无敌手,我要红名!!!

2014-02-21 21:33:54 784

原创 poj 2222 Keywords Search(AC自动机)

传送门:Keywords Search  题目大意:这道题是字典树的模板题。题目很简单,第一个数是测试样例个数。每个样例先给一个n,接下来有n个字符串,再给一个母串,问这些字符串中有多少个在母串中出现过。  分析:此题中母串长度很长,能达到1000000,所以KMP是注定TML的,果断字典树。这道题考的主要就是会不会字典树。陷阱就是在n个字符串中有可能有相同字符串出现。这是很多人WA的原因

2014-02-07 14:42:21 861

原创 Codeforces Round #228 Fox and Card Game 解题报告

无聊了,晚上也睡不着,写个解题报告。  这次没敢用大号打Div.1,就新注册了一个小号又打了盘Div.2,幸好第三题在nultiset遍历并删除那里卡了半小时,只涨到了1693,差7分就只好又注册个小号了,现在的局势还能再打一盘Div.2。  废话不说,先flag一下STL的知识。  STL中的关联容器如果在遍历的时候进行删除的话,不能这样:for(list::iterator

2014-02-05 04:30:33 847

原创 Codeforces Round #219 (Div. 2)

刚打完CF,A了三道题,第一次成功A三道题,以前赛后测试总是过不去,shit。分还没出来,估计能涨到1600,心里想想还是有点小激动,嘿嘿。       比赛刚开始实在不顺心,网络各种问题,想交题都一直交不上去,真想买个无线上网卡,可惜囊中羞涩,连机械键盘都还没买呢。还有B题实在是坑爹,测试数据竟然错了,本该1A的题被我WA了三次,Rejudge才过的,还一下过了俩,还是取最后一次交的……分全

2013-12-14 00:41:33 547

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除