Super Jiju的小窝. To be with my Dearest Jessie!

Don't think complex to simple,and never make simple to complex.

2009年05月30日

原创 Smart YouTube download Release~

Smart YouTube download Release~
http://super-jiju.spaces.live.com/blog/cns!806C498DDEE76B61!636.entry


If you have an iPod or need mp4 videos, you will find this toolkit will bring your nice experience. A lot of software for downloading videos from YouTube can not download by query or playlist. It need you submit the video url respectively. I think it's very inconvenient.
For example, if you want to download videos about "Discovery channel about china" series, fi阅读全文>

发表于 @ 2009年05月30日 18:29:00|评论(loading...)|举报|收藏

2009年05月21日

原创 理论指导实践啊~~~~

理论指导实践!
近期一直想一个idea;本来是计算两个向量x,y的inner products,但是效果不是太好;
所以我想,将这两个向量映射到某个空间上面去;然后再计算;

感觉这个想法挺好的,差点就做实验了;

今天忽然发现,不对;这是因为:Unitary matrices preserve the Euclidean inner product;
也就是Unitary Matrix Q, (Qx,Qy)=(x,y);

其实作为一个空间来说,应该和Q有个大概相同的性质的.....

所以,上述idea失败。不过可以改变Q,继续上面的idea,但是已经让偶对这个idea的效果产生怀疑啦

哎~~~~理论的重要性,不言而喻啊!!阅读全文>

发表于 @ 2009年05月21日 11:55:00|评论(loading...)|举报|收藏

2009年05月19日

原创 Latent Semantic Analysis(LSA)

Latent Semantic Analysis(LSA)
这个东东效果还不错
以前听过,可以理解将矩阵进行去噪;或者说把问题转换到这个矩阵的某个空间里面去
用了SVD方法将特征向量空间进行推广;

这里有个文档,不错,通俗易懂的描述了lsa;
点击这里下载;
http://3sztgg.blu.livefilestore.com/y1p7bK-BNxqs4NXZKCufRAPnts2J7oQ0RxI7Zv6prsBYmkcmhyLwfBR186DI_tdVR92y1dJnv-QhfshBNpjSwR_lrYeX6f2q_hF/An%20Introduction%20to%20Latent%20Semantic%20Analysis.pdf?download阅读全文>

发表于 @ 2009年05月19日 15:36:00|评论(loading...)|举报|收藏

2009年05月17日

原创 赞一下youdao搜索!


很久以前我在闲聊的时候说:在一个社区里面,有很多的link,如果对一个link添加上预览功能,是不是会起到很好的效果呢?
刚才使用了youdao.com,发现youdao就有这个功能,哈哈,看来我还是有先见之明啊;

这样的好处很明显:
1.极大地节省了用户的时间;
2.很好的解决了snippets的不足;
3.特别在网速慢的像屎一样的地方,这种优越性更是不言而喻的;
最后再来个小结论:不久的日子,很多搜索引擎以及网络社区,都会添加这样功能的;
祝福youdao越来越好~阅读全文>

发表于 @ 2009年05月17日 20:21:00|评论(loading...)|举报|收藏

原创 如何提取一个query的concepts?


在一些基于object搜索,或者directory方面等等搜索,需要将一个query进行分割处理;
比如:”Chinese restaurant at Bukit Timah Road“,有没有什么办法可以将这个query分成“Chinese restaurant ”和“Bukit Timah Road”呢?然后再到数据库里面查找这两个concept对应的内容;


http://super-jiju.spaces.live.com/blog/cns!806C498DDEE76B61!619.entry


首先想到的是用query Segmentation的方法,像基于EM算法,MI方法来进行分割;
但是这样情况是针对query比较规范整洁的情况下,比如“ABCDEF”这个query,如果存在concept是“ABCF”,那么基于Segmentation的方法是无论如何都不能成功的;但是这种情况确实非常常见的;

可以考虑谱聚类的方法来处理:
1.构造阅读全文>

发表于 @ 2009年05月17日 19:25:00|评论(loading...)|举报|收藏

原创 说说拼写检查,spell checking

说说拼写检查,spell checking http://super-jiju.spaces.live.com/ Google的拼写检查做的很神奇,以一个相当高的准确率来判断你的输入是不是正确的;但是其中如何做的,谁也不清楚; 这篇文章http://www.norvig.com/spell-correct.html, 里面描述了一个简单的模型; spelling 但是上面这个模型的准确率并不能十分满意,并且,对于未登录词,很难去检查它; P(c) and P(w|c),都有很大的提升空间来做; 最为关键的是,他们忽略了上下文信息; 比如“siao long bao”应该是“xiao long bao”,但是单独的“siao”却不能被检测出来;有人说,可以把“xiao long bao”作为一个词组存储起来,也就是上面那个C,但是整个算法的复杂度就会变得更高了;虽然Google提供了一个5-gram的语料库; 事实上,google 的spell checking做的也不是那么完美,下面有几个例子; 1. 单词没错,检查出有错; 阅读全文>

发表于 @ 2009年05月17日 19:04:00|评论(loading...)|举报|收藏

原创 特征值与特征向量的数值计算; Matrix Eigenvalues and Eigenvectors Calculating

特征值与特征向量的数值计算; Matrix Eigenvalues and Eigenvectors Calculating 这里给一个link,比较全面: http://3sztgg.blu.livefilestore.com/y1p2F8Lb8eNdX8BLz_IZ9blVXOooQxd2kPBL3aHvHzLyArbF0pEhNFOdmQ6ssr9Z_eU7FUMallJMSAkpC-cmi3AVg/eigen.pdf?download 简单说下 利用QR分解 QR分解,偶认为是求特征值和特征向量中很实用的方法 它基于两个定理: 1. 设A是n阶矩阵,其n个 特征值为 x1>x2>x3>...>xn .那么存在一个酉矩阵U,使 UHAU是以为x1,x2,...xn为 对角元的上三角矩阵. 2. 设A是n阶实矩 阵,那么,存在一个正交矩阵Q,使QTAQ为一个准上三角矩阵,它的对角元是A的一个特征值,对角元上的二阶块矩阵的两个特征值是A的一对共轭复特征值. 根据QR分解后的矩阵,不断地进行迭代,就可以得到特征值和特征向量了; 具体参见上面的链接; 阅读全文>

发表于 @ 2009年05月17日 19:03:00|评论(loading...)|举报|收藏

原创 如何使用搜索引擎 zZ

搜索引擎为用户查找信息提供了极大的方便,你只需输入几个关键词,任何想要的资料都会从世界各个角落汇集到你的电脑前。然而如果操作不当,搜索效率也是会大打折扣的。 http://super-jiju.spaces.live.com/blog/cns!806C498DDEE76B61!564.entry  比方说你本想查询某方面的资料,可搜索引擎返回的却是大量无关的信息。这种情况责任通常不在搜索引擎,而是因为你没有掌握提高搜索精度的技巧。那么如何才能提高信息检索的效率呢? 阅读全文>

发表于 @ 2009年05月17日 19:01:00|评论(loading...)|举报|收藏

原创 GNU GDB Debugger Command Cheat Sheet

GDB Command Line Arguments: Starting GDB: * gdb name-of-executable * gdb -e name-of-executable -c name-of-core-file * gdb name-of-executable -pid process-id (Use ps -auxw to list process id's.) Command line options: (version 6. Older versions use a single "-") Option Description --help -h List command line arguments --exec=file-name -e file-name Identify executable associated with core file. --core=name-of-core-file -c name-o阅读全文>

发表于 @ 2009年05月17日 19:00:00|评论(loading...)|举报|收藏

原创 linux 下配置samba服务器参数详解

FC8: 为了能够让windows下的用户通过以太网访问Linux下的共享文件,需要开启Samba服务器,Samba服务器详细配置步骤如下:   1.打开samba的配置文件   vim /etc/samba/smb.conf   2.其中存在如下几个域   [global](全局参数的设置,它对samba的功能具有很大的影响,主要用来设置整个系统规则。   workgroup= 这是你在windows中的域。   server string= 这是在windows中看到你的samba的解释。   netbios name =最好是你的机器名,如果把改句注消,默认的是你LINUX机器名,不过,最好还是自己填上   dos charset=cp936   unix charset=cp936 加上这二句就可以正确显示中文了。   hosts allow 允许登录的linux-samba的主机名单,用IP地址给出,多个IP地址用空格分开,不在名单中的主机将不能得到samba提供的服务,这也是网络安全的一个方面。   p阅读全文>

发表于 @ 2009年05月17日 18:59:00|评论(loading...)|举报|收藏

原创 AOL Seach query database

AOL Seach query database This collection is distributed for NON-COMMERCIAL RESEARCH USE ONLY. Any application of this collection for commercial purposes is STRICTLY PROHIBITED. Brief description: This collection consists of ~20M web queries collected from ~650k users over three months. The data is sorted by anonymous user ID and sequentially arranged. 阅读全文>

发表于 @ 2009年05月17日 18:57:00|评论(loading...)|举报|收藏

2008年12月11日

原创 Summarizing about:String to Int, int To string

Summarizing about:String to Int, int To string 经常在c++里面用到int 和string之间的互相转换问题,方法有很多,这里做一个汇总;1.integer = atoi( my_string.c_str() );2.#include #include //用这个类;int main(){ using namespace std; string s = "1234"; stringstream ss(s); // Could of course also have done ss("1234") directly. int i; ss >> i; cout return 0;}阅读全文>

发表于 @ 2008年12月11日 22:20:00|评论(loading...)|举报|收藏

2008年12月04日

原创 Linux远程登录XP系统

Linux远程登录XP系统Linux远程登录XP系统 1.首先要保证你在xp下可以登录目标xp系统;
2.下载 rdesktop    rdesktop-1.5.0.tar.gz
    http://www.filewatcher.com/m/rdesktop-1.5.0.tar.gz.245137.0.0.html
3.安装:
tar -zxvf rdesktop-1.5.0.tar.gz
cd rdesktop-1.5.0
./configure
make
make install
4.运行:
rdesktop -u username -p password ip
这样运行后,xp的桌面有点小,查看下帮助,-f 即可,如果嫌麻烦,就在桌面做一个Launcher,在全屏模式下,ctrl + alt+ enter即可以退出全屏。


That's All!!
阅读全文>

发表于 @ 2008年12月04日 14:45:00|评论(loading...)|举报|收藏

2008年12月02日

原创 利用C语言获取网页源代码

December 02利用C语言获取网页源代码#include #include #include #pragma comment(lib, "ws2_32.lib") void geturl(char *url) { WSADATA WSAData={0}; SOCKET sockfd; struct sockaddr_in addr; struct hostent *pURL; char myurl[BUFSIZ]; char *pHost = 0, *pGET = 0; char host[BUFSIZ], GET[BUFSIZ]; char header[BUFSIZ] = ""; static char text[BUFSIZ]; int i; /*  * windows下使用socke阅读全文>

发表于 @ 2008年12月02日 10:58:00|评论(loading...)|举报|收藏

2008年11月24日

原创 Browse the Index

November 24Browse the Index 参考文档:
http://lemur.wiki.sourceforge.net/Example+Applications+in+CPlusPlus

http://www.lemurproject.org/doxygen/lemur/html/classlemur_1_1api_1_1Index.html

随便写一个测试程序:
#include#include"Index.hpp"#include"IndexManager.hpp"#include"TermInfoList.hpp"#include"DocInfoList.hpp"#includeusing namespace std;using namespace lemur::api;int main(){    Index *ind=IndexManager::openIndex("/media/disk/IndexIndri");/*    *  term( char* s 阅读全文>

发表于 @ 2008年11月24日 18:25:00|评论(loading...)|举报|收藏

Csdn Blog version 3.1a
Copyright © Super.Jiju