自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

自然语言处理大菜鸟--HsingWang

自然语言处理 & 机器翻译 & http://hlt.suda.edu.cn/~xwang/

  • 博客(13)
  • 收藏
  • 关注

原创 ICTCLAS2013 Java版本的使用方法

这个工具是什么?先看看他的官方介绍吧:NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。c++版本的使用方法:点击打开链接Java32位版本下载地址:点击打开链接介绍时候

2013-04-07 17:47:12 16050 70

原创 机器翻译系统moses报错记录

1,使用已有的词汇化概率lex文件如果训练目录下以后lex文件,那么moses将使用已有的lex文件,不去统计词汇化概率。(4) generate lexical translation table 0-0 @ Wed Apr 24 17:20:15 CST 2013  moses输出: reusing: /**/lex.f2e and   /**/lex.e2f 2,mo

2013-04-25 19:02:11 2937

原创 支持向量机笔记

读李航老师《统计学习方法》笔记模型:线性可分支持向量机(linear support vector machine in linearly separable case)线性支持向量机(linear support vector machine)  非线性支持向量机(non-linear support vector machine)训练数据的性质:训练数据

2013-04-24 09:56:51 1887 1

原创 张乐博士的工具包mexent 笔记

张乐博士最大熵工具包:下载地址 点击打开链接我自己数据放进去,迭代20轮,程序处理完后输出:Total 1063226 training events and 0 heldout events added in 2.63 sReducing events (cutoff is 1)...Reduced to 935244 training events最后程序报错:

2013-04-22 16:14:27 3216

原创 ICTCLAS2013 的使用方法

这个工具是什么?先看看他的官方介绍吧:NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。ICTCLAS2013 Java版本的使用方法 请点击点击打开链接一,先下载c++

2013-04-12 13:29:21 9140 15

原创 C++ Boost 笔记

C++ Boost介绍:http://club.topsage.com/thread-2276543-1-1.htmC++ Boost用法:http://www.cnblogs.com/wubiyu/archive/2008/11/30/1344093.html   点击打开链接Linux下如何编译 点击打开链接*****    切记 编译时候加 -lboost_regex

2013-04-11 13:16:09 1218

原创 AdaBoost算法笔记

百度搜索研发部博客 点击打开链接一个AdaBoost博客点击打开链接一个AdaBoost代码实现点击打开链接明天或者后天写写自己的感受。

2013-04-10 19:03:13 1252

原创 关于使用中文分词工具ICTCLAS2013 Java版本乱码的问题

中文分词工具ICTCLAS2013Java版本的使用什么的我就不罗嗦了,不知道怎么使用的点这里点击打开链接。我的eclispe的text file encoding是GBK的。这个也就不废话了。运行一下,控制台输出一堆乱码的东西:图1. 直接运行后控制台输出乱码。为什么会这个样子呢?看看工具发布主页的FAQ中的一个问题:图2. FAQ中一个关于编码的问题。

2013-04-08 10:36:14 5827 9

原创 自己的一个toy

准备写个toy:实现这么几个功能:从 新浪,凤凰网,搜狐等抓取当天的新闻(目前暂定一天抓三次)。对他们进行分词,然后看看他们关注的话题的不同。                       -----mark 一下抓取的网页多一点,然后每天对分出来的词进行归类,与hao123的热点新闻比较,看能不能得到点结果。2013-4-7:已经可以抓取好多网页的新闻标题了。

2013-04-06 21:41:16 1844

原创 杭电1010题

#include#includeusing namespace std;class Point{public: int x; int y; Point():x(0),y(0) { } Point(int a, int b):x(a),y(b) { }};/* -1 sink block 0 empty block 1 start point 2 bloc

2013-04-06 19:09:57 1381 1

原创 杭电1009题

#include#include #include#includeusing namespace std;class Room{public: int iJavaBean; int iCatFood; double douRate; Room():iJavaBean(0),iCatFood(0) { douRate = 0; } Room(int x, int

2013-04-06 15:54:29 1343

原创 杭电1007题

普通方法,超时了。#include#include #include#includeusing namespace std;class Point{public: double douX; double douY; Point():douX(0),douY(0) { } Point(double x, double y):douX(x),douY(y) {

2013-04-06 13:49:11 1640

原创 杭电1008题

#include using namespace std;int main(){ int iStopCount; int iStopTimePerFloor = 5; int iMoveUpTimePerFloor = 6; int iMoveDownTimePerFloor = 4; int iCurrentStopFloor; int iSumTime; while(c

2013-04-02 21:18:35 1602

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除