2009年05月30日
Smart YouTube download Release~
http://super-jiju.spaces.live.com/blog/cns!806C498DDEE76B61!636.entry
If
you have an iPod or need mp4 videos, you will find this toolkit will
bring your nice experience. A lot of software for downloading videos
from YouTube can not download by query or playlist. It need you submit
the video url respectively. I think it's very inconvenient.
For
example, if you want to download videos about "Discovery channel about
china" series, fi阅读全文>
发表于 @ 2009年05月30日 18:29:00|评论(loading...)|举报|收藏
2009年05月21日
理论指导实践!
近期一直想一个idea;本来是计算两个向量x,y的inner products,但是效果不是太好;
所以我想,将这两个向量映射到某个空间上面去;然后再计算;
感觉这个想法挺好的,差点就做实验了;
今天忽然发现,不对;这是因为:Unitary matrices preserve the Euclidean inner product;
也就是Unitary Matrix Q, (Qx,Qy)=(x,y);
其实作为一个空间来说,应该和Q有个大概相同的性质的.....
所以,上述idea失败。不过可以改变Q,继续上面的idea,但是已经让偶对这个idea的效果产生怀疑啦
哎~~~~理论的重要性,不言而喻啊!!阅读全文>
发表于 @ 2009年05月21日 11:55:00|评论(loading...)|举报|收藏
2009年05月19日
Latent Semantic Analysis(LSA)
这个东东效果还不错
以前听过,可以理解将矩阵进行去噪;或者说把问题转换到这个矩阵的某个空间里面去
用了SVD方法将特征向量空间进行推广;
这里有个文档,不错,通俗易懂的描述了lsa;
点击这里下载;
http://3sztgg.blu.livefilestore.com/y1p7bK-BNxqs4NXZKCufRAPnts2J7oQ0RxI7Zv6prsBYmkcmhyLwfBR186DI_tdVR92y1dJnv-QhfshBNpjSwR_lrYeX6f2q_hF/An%20Introduction%20to%20Latent%20Semantic%20Analysis.pdf?download阅读全文>
发表于 @ 2009年05月19日 15:36:00|评论(loading...)|举报|收藏
2009年05月17日
很久以前我在闲聊的时候说:在一个社区里面,有很多的link,如果对一个link添加上预览功能,是不是会起到很好的效果呢?
刚才使用了youdao.com,发现youdao就有这个功能,哈哈,看来我还是有先见之明啊;
这样的好处很明显:
1.极大地节省了用户的时间;
2.很好的解决了snippets的不足;
3.特别在网速慢的像屎一样的地方,这种优越性更是不言而喻的;
最后再来个小结论:不久的日子,很多搜索引擎以及网络社区,都会添加这样功能的;
祝福youdao越来越好~阅读全文>
发表于 @ 2009年05月17日 20:21:00|评论(loading...)|举报|收藏
在一些基于object搜索,或者directory方面等等搜索,需要将一个query进行分割处理;
比如:”Chinese
restaurant at Bukit Timah Road“,有没有什么办法可以将这个query分成“Chinese restaurant
”和“Bukit Timah Road”呢?然后再到数据库里面查找这两个concept对应的内容;
http://super-jiju.spaces.live.com/blog/cns!806C498DDEE76B61!619.entry
首先想到的是用query Segmentation的方法,像基于EM算法,MI方法来进行分割;
但是这样情况是针对query比较规范整洁的情况下,比如“ABCDEF”这个query,如果存在concept是“ABCF”,那么基于Segmentation的方法是无论如何都不能成功的;但是这种情况确实非常常见的;
可以考虑谱聚类的方法来处理:
1.构造阅读全文>
发表于 @ 2009年05月17日 19:25:00|评论(loading...)|举报|收藏
说说拼写检查,spell checking
http://super-jiju.spaces.live.com/
Google的拼写检查做的很神奇,以一个相当高的准确率来判断你的输入是不是正确的;但是其中如何做的,谁也不清楚;
这篇文章http://www.norvig.com/spell-correct.html, 里面描述了一个简单的模型;
spelling
但是上面这个模型的准确率并不能十分满意,并且,对于未登录词,很难去检查它;
P(c) and P(w|c),都有很大的提升空间来做;
最为关键的是,他们忽略了上下文信息;
比如“siao long bao”应该是“xiao long bao”,但是单独的“siao”却不能被检测出来;有人说,可以把“xiao long bao”作为一个词组存储起来,也就是上面那个C,但是整个算法的复杂度就会变得更高了;虽然Google提供了一个5-gram的语料库;
事实上,google 的spell checking做的也不是那么完美,下面有几个例子;
1. 单词没错,检查出有错;
阅读全文>
发表于 @ 2009年05月17日 19:04:00|评论(loading...)|举报|收藏
特征值与特征向量的数值计算; Matrix Eigenvalues and Eigenvectors Calculating
这里给一个link,比较全面:
http://3sztgg.blu.livefilestore.com/y1p2F8Lb8eNdX8BLz_IZ9blVXOooQxd2kPBL3aHvHzLyArbF0pEhNFOdmQ6ssr9Z_eU7FUMallJMSAkpC-cmi3AVg/eigen.pdf?download
简单说下 利用QR分解
QR分解,偶认为是求特征值和特征向量中很实用的方法
它基于两个定理:
1.
设A是n阶矩阵,其n个 特征值为 x1>x2>x3>...>xn .那么存在一个酉矩阵U,使
UHAU是以为x1,x2,...xn为 对角元的上三角矩阵.
2.
设A是n阶实矩 阵,那么,存在一个正交矩阵Q,使QTAQ为一个准上三角矩阵,它的对角元是A的一个特征值,对角元上的二阶块矩阵的两个特征值是A的一对共轭复特征值.
根据QR分解后的矩阵,不断地进行迭代,就可以得到特征值和特征向量了;
具体参见上面的链接;
阅读全文>
发表于 @ 2009年05月17日 19:03:00|评论(loading...)|举报|收藏
搜索引擎为用户查找信息提供了极大的方便,你只需输入几个关键词,任何想要的资料都会从世界各个角落汇集到你的电脑前。然而如果操作不当,搜索效率也是会大打折扣的。
http://super-jiju.spaces.live.com/blog/cns!806C498DDEE76B61!564.entry
比方说你本想查询某方面的资料,可搜索引擎返回的却是大量无关的信息。这种情况责任通常不在搜索引擎,而是因为你没有掌握提高搜索精度的技巧。那么如何才能提高信息检索的效率呢? 阅读全文>
发表于 @ 2009年05月17日 19:01:00|评论(loading...)|举报|收藏
GDB Command Line Arguments:
Starting GDB:
* gdb name-of-executable
* gdb -e name-of-executable -c name-of-core-file
* gdb name-of-executable -pid process-id
(Use ps -auxw to list process id's.)
Command line options: (version 6. Older versions use a single "-")
Option Description
--help
-h List command line arguments
--exec=file-name
-e file-name Identify executable associated with core file.
--core=name-of-core-file
-c name-o阅读全文>
发表于 @ 2009年05月17日 19:00:00|评论(loading...)|举报|收藏
FC8:
为了能够让windows下的用户通过以太网访问Linux下的共享文件,需要开启Samba服务器,Samba服务器详细配置步骤如下:
1.打开samba的配置文件
vim /etc/samba/smb.conf
2.其中存在如下几个域
[global](全局参数的设置,它对samba的功能具有很大的影响,主要用来设置整个系统规则。
workgroup= 这是你在windows中的域。
server string= 这是在windows中看到你的samba的解释。
netbios name =最好是你的机器名,如果把改句注消,默认的是你LINUX机器名,不过,最好还是自己填上
dos charset=cp936
unix charset=cp936 加上这二句就可以正确显示中文了。
hosts allow 允许登录的linux-samba的主机名单,用IP地址给出,多个IP地址用空格分开,不在名单中的主机将不能得到samba提供的服务,这也是网络安全的一个方面。
p阅读全文>
发表于 @ 2009年05月17日 18:59:00|评论(loading...)|举报|收藏
AOL Seach query database
This collection is distributed for NON-COMMERCIAL RESEARCH USE ONLY.
Any application of this collection for commercial purposes is STRICTLY PROHIBITED.
Brief description:
This collection consists of ~20M web queries collected from ~650k users over three months.
The data is sorted by anonymous user ID and sequentially arranged. 阅读全文>
发表于 @ 2009年05月17日 18:57:00|评论(loading...)|举报|收藏
2008年12月11日
Summarizing about:String to Int, int To string 经常在c++里面用到int 和string之间的互相转换问题,方法有很多,这里做一个汇总;1.integer = atoi( my_string.c_str() );2.#include #include //用这个类;int main(){ using namespace std; string s = "1234"; stringstream ss(s); // Could of course also have done ss("1234") directly. int i; ss >> i; cout return 0;}阅读全文>
发表于 @ 2008年12月11日 22:20:00|评论(loading...)|举报|收藏
2008年12月04日
Linux远程登录XP系统Linux远程登录XP系统 1.首先要保证你在xp下可以登录目标xp系统;
2.下载 rdesktop rdesktop-1.5.0.tar.gz
http://www.filewatcher.com/m/rdesktop-1.5.0.tar.gz.245137.0.0.html
3.安装:
tar -zxvf rdesktop-1.5.0.tar.gz
cd rdesktop-1.5.0
./configure
make
make install
4.运行:
rdesktop -u username -p password ip
这样运行后,xp的桌面有点小,查看下帮助,-f 即可,如果嫌麻烦,就在桌面做一个Launcher,在全屏模式下,ctrl + alt+ enter即可以退出全屏。
That's All!!
阅读全文>
发表于 @ 2008年12月04日 14:45:00|评论(loading...)|举报|收藏
2008年12月02日
December 02利用C语言获取网页源代码#include #include #include #pragma comment(lib, "ws2_32.lib") void geturl(char *url) { WSADATA WSAData={0}; SOCKET sockfd; struct sockaddr_in addr; struct hostent *pURL; char myurl[BUFSIZ]; char *pHost = 0, *pGET = 0; char host[BUFSIZ], GET[BUFSIZ]; char header[BUFSIZ] = ""; static char text[BUFSIZ]; int i; /* * windows下使用socke阅读全文>
发表于 @ 2008年12月02日 10:58:00|评论(loading...)|举报|收藏
2008年11月24日
November 24Browse the Index 参考文档:
http://lemur.wiki.sourceforge.net/Example+Applications+in+CPlusPlus
http://www.lemurproject.org/doxygen/lemur/html/classlemur_1_1api_1_1Index.html
随便写一个测试程序:
#include#include"Index.hpp"#include"IndexManager.hpp"#include"TermInfoList.hpp"#include"DocInfoList.hpp"#includeusing namespace std;using namespace lemur::api;int main(){ Index *ind=IndexManager::openIndex("/media/disk/IndexIndri");/* * term( char* s 阅读全文>
发表于 @ 2008年11月24日 18:25:00|评论(loading...)|举报|收藏