自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 资源 (1)
  • 收藏
  • 关注

使用screen与ssh进行远程管理

现在有一个项目的计算量比较大,最后决定放到系里的集群上去运行。林老师说使用ssh会遇到一个问题,就是如果ssh连接断开了,那么程序也就终止了,——所以应该使用screen来管理。参照man手册和网上的一些资料实践了一下,现把这个过程记录如下。——实践的内容是,远程连接到服务器,使用wget开始下载,接着关闭终端。然后重新连接到服务器上去,看进程是否被终止。 1、ssh远程登录$ss...

2009-08-14 21:31:01 180

(转载)介绍几本数学书

转载自:http://dahua.spaces.live.com/blog/cns!28AF4251DF30CA42!2496.entry前面几篇谈了一些对数学的粗浅看法。其实,如果对某门数学有兴趣,最好的方法就是走进那个世界去学习和体验。这里说说几本我看过后觉得不错的数学教科书。1. 线性代数 (Linear Algebra):我想国内的大学生都会学过这门课程,但是,...

2009-08-10 03:19:46 236

基于wordnet多关系最短路径算法的词语相似度计算

基本算法思路:WORDNET相似度计算算法1、使用关系:同义关系,is-a关系,part-of关系2、概念之间以同义集关系进行跳转。如果两概念之间为同义集关系,则直接计算,否则同义集之间的关系跳转使用is-a关系和part-of关系3、概念深度的计算考虑单关系(is-a关系)单向(从根结点到待测节点)开始扫描;4、两个词语的相似度最终可以表示为:f(最短...

2009-07-29 14:11:53 701

wordnet数据文件整理小结

为了不被wordnet的API所限制,为了不用每次都拿着文档一个一个单位的比对,为了某某某的相似度计算不再计算的头昏眼花,为了我自己之后可能会用到wordnet。In a word,在如此强大的需求之下,我终于决定把wordnet的数据库文件解析出来,按照自己定义的模式保存在数据库中。——在这个过程中,第一次真实得感受到了传统关系数据库的局限性,不知道被热捧的XML数据库发展到什么程度了。废话...

2009-07-29 12:04:26 627

ubuntu下vmvare中无法使用方向键的解决办法

运行~$ sudo gedit /etc/vmware/config在最后加上xkeymap.nokeycodeMap = true然后重启vmware~$ sudo /etc/init.d/vmware restart即可解决

2009-07-05 08:18:34 306

MySQL简单备份和恢复方法

这里写一下整个数据库的备份和导入方法,具体的操作细节以及相关参数解析参见man mysqldump1、备份~$ mysqldump database > destination -u user -p示例:~$ mysqldump PaperXuOne > /home/xu/me.sql -u root -p2、导入假设我们要将刚才备份的数据库保存...

2009-06-29 04:48:23 71

ubuntu光盘制作和挂载

1、从光盘制作光盘镜像文件。将光盘放入光驱,执行下面的命令:#cp /dev/cdrom /home/xu/cd.iso 或#dd if=/dev/cdrom of=/home/xu/cd.iso2、将文件和目录制作成光盘镜像文件,执行下面的命令:# mkisofs -r -J -V paper -o /home/xu/paper.iso /home/xu/...

2009-06-28 04:51:08 309

ubuntu server安装图形界面

作为备份,免得每次都去 google。对gnome比较熟悉,所以以此为例。1、安装 X 窗口系统:sudo apt-get install x-window-system-core2、安装登录管理器:sudo apt-get install gdm3、 安装桌面环境或窗口管理器,仅安装最基本的组件:sudo apt-get install gnome-core...

2009-06-26 06:43:43 88

Stanford中文分词包批量处理的一个示例

抱怨了很久的分词问题,后来发现Stanford的一个中文分词软件非常不错,就想拿来看看效果怎么样。由于这个软件实在是太强大了,我也来不及去仔细分析,只是把DEMO研究了一下,看了下相关的3,4个类,利用API写了一段批量处理的示例代码。——这个分词软件有一个学习的过程,使用条件随机场方法,所以不把这一部分剥离处理恐怕处理大规模数据的时候就太慢了。直接上代码吧。package T...

2009-06-26 02:28:46 183

A Speech in Gettysburg

I’ve listened for several times,but I cannot ensure to be the same,but the main meaning .See follows:This regiment was formed last summer in Maine.There was 1000 of us thenThere are less t...

2009-06-14 12:47:20 123

一段诡异的网页源代码

分析新浪新闻时候出现的诡异问题,用IE/FF都能正常解析,可是我不知道这东西是怎么解析出来的。待测URL:http://news.sina.com.cn/w/p/2009-03-24/013217465583.shtml使用JAVA中的URL类,读取出来的源代码<HTML><HEAD><META HTTP-EQUIV=”Refresh”...

2009-05-14 14:28:24 1244

AI顶级会议列表

转载自:http://klqingshui.blog.163.com/blog/static/149118222008102292455456/对AI领域的会议的评点The First Class:tier-1的conferences, 其实基本上就是AI里面大家比较公认的top conference. 下面同分的按字母序排列.IJCAI (1+): AI最好的综合性会...

2009-05-08 07:21:50 356

召回率和准确率,关键词算法的评价讨论

关于如何评价关键词算法的效率,师姐建议采用借用搜索引擎的召回率和准确率来统计,——人工选择N个关键词,再自动抽取N个关键词进行比较。但是在最后的实现过程中发现,这种N:N的方法是不太恰当的,最明显的结果是召回率=准确率。另一方面,手动关键词的选取也值得商榷,限定提取N个关键词的办法似乎不是很好,问题在于究竟应该选取一个多大的N?——我在做测试集的时候就有这一困惑,有的新闻实在提取不出10个关键...

2009-05-05 11:35:35 1602 2

需求文档标准-IEEE/ANSI 830-1998

摘抄自《软件工程(第八版)》Page83—— ISBN 978-7-111-20459-61、引言1.1 需求文档的目的1.2 产品范围1.3 定义、首字母缩写词和缩略词1.4 参考文献1.5 文档的其余部分概览2、一般描述2.1 产品透视2.2 产品功能2.3 用户特征2.4 一般约...

2009-05-04 01:05:05 2046

Drupal学习第一阶段小结

无聊的五一天天在实验室呆着,也好,总算把drupal的入门教程看完了。——看着小师妹一天到晚得忙着毕业论文,心里也平衡一点。我在自己的电脑上搭建了一个测试系统,主要来说,还是以熟悉drupal的一些基本概念,基本功能为主。参照另一篇文章提到的drupal架构,所有模块的功能都建立在对基本节点的控制上。drupal用node作为系统的基本单元,表现所有内容的特征。同时,系统允许对节点属性进行...

2009-05-03 12:38:34 122

Drupal clean URL设置

折腾了好久,终于是把Drupal clean URL设置给弄好了。——等会把我的博客也改装一下。废话不多说,直奔主题吧。运行环境:ubuntu_8.10_desktop + Apache/2.2.9 (Ubuntu)首先加载mod_rewrite模块:$: sudo a2enmod rewrite使用命令 $:apache2ctl -M查看模块是否成功加载,如果看到 ...

2009-04-29 05:42:25 137

The Drupal overview(reshipment)

前言:前几天翻译了一篇Drupal的介绍文章,但是比较简单。随着更加深入的了解,我越来越觉得使用Drupal平台进行资源管理是一个很不错的选择,所以,今后将转载Drupal Handbooks的一些精华文章。Last modified: March 19, 2009 – 08:28Although Drupal is often described as a “content man...

2009-04-27 04:35:36 181

Drupal,开源CMS框架

看了大半天Drupal的文档,留个记号。 首先来看几个基于Drupal的站点:中国一位网友使用Drupal做的:http://www.geekg.com/Drupal官网发布的:http://www.rakemag.com/来一个重磅的,奥巴马(白宫)的新网站Recovery.gov:http://www.recovery.gov/&...

2009-04-25 12:53:04 210

ubuntu 8.10 杂音问题

ubuntu 8.10一直存在着杂音问题,看电影听歌都很不爽。尝试过修改系统的音效设置(系统-首选项-音效),但是效果不理想。后来看到一位仁兄的办法,其实很简单。1、打开alsa高级设置,$:sudo alsamixer2、按F5打开所有音轨;3、左右方向键选择音轨,上下键调节音量,把每个出现红色的音量跳调节到绿色;4、按ESC退出。设置立即生效,不需要重启设备。注...

2009-04-22 07:04:55 304

基于频道相关性的IDF计算_小结

由于项目需要改进关键词算法,在算法改进的可行方向_20090413中提到了几个可能的改进意见,这里先就第三点做了一些实现。实现目标:区分出高频的关键词,同时解决低频词IDF值过高的影响。实现依据:高频词中,无意义词在各频道的分布比较均衡,而关键词在各频道的出现频率差距比较大。由此,对于某一个候选词w,分析w在各频道的出现频率P(wi)的统计性质,即可区分出高频的无意义词和高频关...

2009-04-19 05:08:52 128

算法改进的可行方向_20090413

可能改进的方向和参数:*1、不同频道2、单词在文本中的位置3、IDF趋势的改变(词语在不同频道的分布) 方差*当前值,取反4、语义相关度5、时间变化...

2009-04-13 07:50:43 255

vsftpd虚拟用户设置及维护

此方法参照网友Deidara的博客文章完成。系统 : ubuntu server 8.10第一部分:虚拟用户设置1。安装$sudo apt-get install vsftp db4.6-util2。建立虚拟用户使用目录#sudo mkdir -p /home/ftp设置只允许ftp 访问$chown ftp.root /home/f...

2009-04-12 11:02:55 154

vsftpd 参数列表

<这几天把实验室的FTP服务器重新安装了一下,由于vsftpd是通过配置文件来管理的,将参数列表整理一下,以备将来查询>#################用户登陆控制###############接受匿名用户anonymous_enable=YES#匿名用户login时不询问口令no_anon_password=YES#匿名用户主目录...

2009-04-12 10:50:29 80

原来墨水也可以这么美

这是一位老兄拍摄的墨水稀释过程,看后感觉很不错的。ink_dancefor an artist called ‘aus’ (Released on Motteer, U.K)

2009-04-11 12:02:31 107

Python‘特快’学习小结

pygGTrends为了自动得获取Google趋势搜索的结果,最初考虑国使用socket来实现,但是一直没法登录,——我是抓包之后完全模拟这个过程,很可惜这条路没走通。后来,在网上搜到一个Python的脚本文件,于是乎就开始鼓弄这些东西。该脚本相关资料参考:Programmatic Google Trends APIsuryasev/unofficial-google-...

2009-04-08 08:17:16 126

讨论:TF-IDF算法的优劣

前几天转载了TF-IDF算法的思路(见:TF/IDF算法(转载)),参照这一思路用JAVA实现了算法。——在这之前,我使用权重+词频(V-TF)的方法计算了文本的关键词。现在通过比较,来分析一下出现的一些问题。总体来说,很遗憾的得发现,——就目前的结果来看,TF-IDF的准确率明显不如V-TF。出现这一情况确实很意外,根据实验的情况,来分析其中究竟那些地方出了问题。首先解析一下...

2009-04-06 12:30:50 1356

Linux下载整个网站的命令及注解

~$ wget -t0 -c -nH -np -b -m -P /localdir hostname -o wget.log参数解释参照man,可能有些差别-t0 :=t inf设置重试次数,0和inf表示无限次,默认是20次;-c :递归下载,wget -c http://…/file相当于wget http://…/file*,大致是这个意思,不是说wget支持通配符;-n...

2009-04-02 05:22:49 146

TF/IDF算法(转载)

—— 一直说TF-IDF,终于开始做真正的TF-IDF。TF/IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明。一。TF/IDF描述单个term与特定document的相关性TF(Term Frequency): 表示一个term与某个document的相关性。公式为这个term在document...

2009-04-02 04:00:32 98

关于构建新闻关键词知识库的一点想法

昨天和周师兄等人一起聊了些本体和语义的话题。结合着我们目前在做的项目,考虑了一下构建新闻知识库的可行性,——从工程实现的角度。首先说一下在新闻领域新闻关键词具有的一些特征:第一:新闻的思路是比较清晰的,——我个人觉得,用特征值来描述比较恰当一点。一则新闻,可以分解为5W,什么人,什么时候,在什么地方,做了什么事,为了这么做 AND/OR 这样作会有什么影响。——如果能分析出相应的特...

2009-03-28 03:48:57 133

Google的语音搜索应用

到目前为止,Google已经为iPhone,Android以及BlackBerry提供了语音搜索功能,语音搜索已经从逐步得从实验室进入了商业市场。标记一下,IBM的语音识别 & Google的语音搜索。...

2009-03-28 03:20:44 541

搜狗实验室新闻素材整理

先把数据库的截图发一下,明天再写总结。sohu_news_src_DB所做的处理,最终目的是为了得到一序列参照频道划分的新闻词频率。——基于前提假设,同一条新闻在不同的平台上应该被归类到同一个频道下,那么,按照统计得到的数据可以应用到待处理的新闻关键词提取过程中,以提高关键词的提取效率。实现过程总结如下:第一阶段:将搜狗实验室提供的新闻原始数据进行分类存储。根据统计一共...

2009-03-25 14:33:41 601

MySQL中使用JDBC批量插入记录的一个细节

——参照网上提供的方法,但是有些细节性的问题总是容易被忘记。以使用使用PreparedStatement为例,——Statement没有测试过以下是我在程序中用到的一段代码:pstmt=conn.prepareStatement("insert into " +configInfo.keywordsTable+"(id,news_id,tag_type,tag) values...

2009-03-22 08:08:58 92

识别中文编码GBK和UTF-8的简单方法

中文中经常用到的两种编码是GBK和UTF-8,当对字符流进行处理时,只需要简单的区分这两种编码即可。对于UTF-8编码格式的文本文件,其前3个字节的值就是-17、-69、-65,所以,判定是否是UTF-8编码格式的代码片段如下:# java.io.File f=new java.io.File("待判定的文本文件名");# try{# java.io.InputStream...

2009-03-19 04:42:03 1788 3

ubuntu下安装wordpress需要注意的几个问题

1、MySQL帐户的设置,需要设置两个同名帐户,——如果需要远程访问管理的话,一个设为任意域,另一个设为localhost,只在本地安装过,不知道是否可以远程安装。2、网站权限设置修改网站所在文件夹的访问权限,设我的文件夹位于/var/www/xu$:sudo chown -R www-data:www-data /var/www/xu  设置网络权限,允许上传$:sudo chm...

2009-03-18 04:44:11 98

MySQL访问控制的几个问题

打开MySQL的配置文件,可以看到这么一行ndb-connectstring=127.0.0.1这行的作用是,禁止数据库的远程访问,——如果需要允许数据库远程访问,直接把这行注销就可以,(#ndb-connectstring=127.0.0.1)。但是,如果是使用phpMyAdmin来管理,就可以绕过这个问题,——没用过MySQL browser,不知道会不会一样。另一方面,非全局用户...

2009-03-18 02:52:34 139

MySQL中文配置

因为项目关系,保存到数据库中的信息很大一部分是中文。数据库是采用LAMP软件包进行安装,默认情况下,即使设置了表项的编码为gb2312_bin或者gb2312_chinese_ci,往数据库里写东西,读出来的文本都成了一堆???,为此需要修改MySQL的配置文件。(ubuntu 8.04 desktop,8.10 server,+MySQL5.0)打开终端:application – ap...

2009-03-18 02:38:37 188

ISO/IEC 15938-3, Information technology — Multimedia content description interface — Part 3: Visual

MPEG7(Multimedia content description interface,又称为多媒体内容描述接口)是关于多媒体资源内容管理的国际标准,本篇文章是标准的三部分-Visual。

2008-11-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除