自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

fuyangchang的专栏

我在淘宝!

  • 博客(176)
  • 资源 (5)
  • 收藏
  • 关注

转载 Web搜索中的用户意图的自动识别

http://blog.csdn.net/killtayoto/article/details/5974183通过直方图来确定query是否是寻址类网站挺有意思。

2013-01-06 09:46:45 763 1

原创 ubuntu hbase NotAllMetaRegionsOnlineException问题

搞了半天,解决方法很简单将/etc/hosts中 ubuntu对应的127.0.1.1改成本机的IP即可。

2011-10-03 20:24:38 1033 1

转载 AUC(Area Under roc Curve )计算及其与ROC的关系

让我们从头说起,首先AUC是一种用来度量分类模型好坏的一个标准。这样的标准其实有很多,例如:大约10年前在machine learning文献中一统天下的标准:分类精度;在信息检索(IR)领域中常用的recall和precision,等等。其实,度量反应了人们对” 好”的分类结果

2011-08-28 20:36:28 1667 1

转载 cppcheck c++静态代码检查

一. cppcheck介绍   cppcheck 是一个静态代码检查工具,支持c, c++ 代码;作为编译器的一种补充检查,cppcheck对产品的源代码执行严格的逻辑检查。 执行的检查包括:   1.  自动变量检查   2.  数组的边界检查   3.

2011-08-28 17:43:27 4430

原创 c++类常见问题

c++类定义的时候,假如只是声明了,没有定义,用new生成对象时,会提示找不到symbol的错误。 *** glibc detected *** free(): invalid pointer: 0x0000000000517966 *** 已放弃 重现方法:country= new char[MAXBUF];if((index=strstr(country,"省"))!=NULL){ cout

2011-05-06 20:12:00 909

原创 设定全局的config配置文件

在开发项目的时候,有很多配置项,这个时候可以生成一个全局的conf类,需要读取配置文件的内容的时候,直接调用该类获取各种变量。 1.首先声明一个静态类的静态方法 static Config &GetInstance(); 2.在静态方法中生成一个静态的对象 Config &Config::GetInstance() { static Config instance; return instance; }3.在类中定义一个map,保存配置文件中的各个变量的值。这样

2011-05-04 15:29:00 1060

原创 vim乱码解决方案

与编码有关的设置选项有: 1.当前系统的语言环境export LANG=zh_CN.GBKexport LC_ALL=zh_CN.GBK2.securecrt的编码option—>session Option->外观—>文字编码,设置成GBK。3.vimrc中编码相关的set encoding=GBKset fileencodings=utf-8,ucs-bom,gbkset termencoding=GBK

2011-05-03 15:07:00 660

原创 perl value排序

这么简单的东西,长时间不用还是忘了,记录下,方便以后查找。#!/usr/perl/bin use strict; use Data::Dumper; my %h=( "Alex"=>24, "Sam"=>25, "Bob"=>30, "Andy"=>11, "Wills"=>35, "Mary"=>16, "Helen"=>24 ); print(Dumper(/%h)); # output original

2011-05-02 22:04:00 885

原创 建索引优化的优化方法

对query建立索引的时候,可能输入的文件格式如下: term1 term2|query|pv。。。。       考虑每个term对应的倒排链,可能不能将每个term的posting list保存下来,这时候就需要一种截断的方法,从而优化线上检索的性能。 一种可能的方法是: 1.首先将所有的行按照pv进行排序,sort就可以实现,sort –t”|” –k3rn 2.顺序读取每一行,将query写文件,并将offset保存到term1 ,term2对应的 posting list 中。 3.将每个ter

2011-04-28 16:52:00 774

原创 apache取得客户端ip

今天修改下so,搞ip,找了半天,发现了request_rec结构体里面有,记录下。struct request_rec { pool *pool; conn_rec *connection; server_rec *server; request_rec *next; request_rec *prev; request_rec *main; char *the_request; int assbackward

2011-04-28 14:13:00 1371

原创 c++调试信息添加方式

在写代码的时候,总需要写进代码很多调试信息,方便的做法是用#if DEBUG#endif这样的预定义包围起来,如果需要打开调试信息,直接在头文件中添加#define DEBUG 1就可以了。常用的调试信息如下: struct timeval tv; gettimeofday(&tv, NULL); 。。。。。可执行程序。。。。。。 struct timeval tv2; gettimeofday(&tv2, NULL); cout

2011-04-27 17:46:00 1225

原创 Hadoop Streaming cacheFile 和cacheArchive选项

Hadoop Streaming中的大文件和档案 任务使用-cacheFile和-cacheArchive选项在集群中分发文件和档案,选项的参数是用户已上传至HDFS的文件或档案的URI。这些文件和档案在不同的作业间缓存。用户可以通过fs.default.name.config配置参数的值得到文件所在的host和fs_port。 这个是使用-cacheFile选项的例子: -cacheFile hdfs://host:fs_port/user/testfile.txt#testlink在上面的例子

2011-04-26 16:39:00 18539

原创 streaming 设置环境变量

在 streaming命令中设置 环境变量:-cmdenv EXAMPLE_DIR=/home/example/dictionaries/

2011-04-26 16:28:00 1372

原创 test

for(int i=0;i

2011-04-26 16:12:00 481

转载 linux ar 打包库到另一个库中

不论你是否遇到过或者想到过这样的情况,在一个库中添加另一个库,这个方法对你们来说都是及其有用的。因为我在网上搜索了半天还没有搜索到与此方法相关的 文章。我已经测试过了通过这种方法生成的库是完全可用的,而且非常方便。通过在实际的项目中我学到了这个很好的方法,所以在这里给大家介绍一个,希望对大 家有帮助。大家就不用走更多的弯路ar命令的操作选项和任选项我就不介绍了,很简单,网上也有很多文章在介绍,随便看看就可以了。如果你不知道,还是应该去先去看看再来这篇文章。如果我们简单的通过ar命令把几个.o文件,如yuer

2011-04-11 11:32:00 1060

原创 windows下启动cygwin的cron/crontab

cygwin 下不仅仅是 cron 需要以 windows 服务的方式启动, 消息队列、共享内存以及信号量等进程间通信方式也需要以 windows 服务方式启动 cygserver 以后才可用。除了 cron 包,还需要确认 cygrnsrv 包已经安装: # 安装 cron 服务cygrunsrv -I cron -p /usr/sbin/cron -a -D# 启动服务: 也可以用 windows 的启动方式 net start croncygrunsr

2011-02-17 09:53:00 4552

原创 gdb调试,显示utf-8字符

gdb本身只支持ASCII, ISO-8859-1,set charset可以查看。直接print utf8的中文字符会出现乱码, 看到网上有个解决方法是在调试程序中加入一个打印的函数,感觉比较好用,分享 一下。 将如下代码和main函数放在一起,调试的时候 call pstring(s)就行。 void pstring(string& s){ for (int i = 0; i (s[i]); if(h >> 4 == 0x0E) len = 3; //

2011-01-21 16:44:00 8055

转载 STL map 插入小结

难道插入map还有什么讲究吗?我们且看map在STL中的定义方法:    template , class Alloc = alloc>        第一个参数Key是关键字类型 第二个参数T是值类型 第三个参数Compare是比较函数(仿函数) 第四个参数是内存配置对象 map内部存储机制实际是以红黑树为基础,红黑树在插入节点时,必须依照大小比对之后在一个合适的位置上执行插入动作。所以作为关键字,起码必须有“ int main() { std::map, int> res;     

2011-01-21 11:12:00 3271

原创 awk编写hadoop streaming 总结

hrmr $hdp/test/query hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-0.19.1-streaming.jar /-D mapred.reduce.tasks=0 /-mapper "awk -F'/t' '{print /$1}'" /-input $path /-output $hdp/test/query 1.awk调用的时候$符号需要转义成/$

2011-01-20 12:36:00 4303

原创 php与memcached配合使用注意事项

1.memcached启动的时候,如果指定了ip,则建立链接的时候socket会绑定到这个连接上。 例如 /home/admin/memcached/bin/memcached -d -m 5000 –I 192.168.1.1则socket绑定到了192.168.1.1上去,如果在php中链接的时候代码通过127.0.0.1进行链接, $memcache_obj =memcache_pconnect("127.0.0.1",11211); 会出现如下的

2011-01-19 14:23:00 1002

原创 hadoop超时解决办法

进行矩阵计算的时候,由于持续时间长,往往会出现超时的错误,错误内容如下: Task attempt_201005281116_119912_r_000823_0 failed to report status for 606 seconds. Killing! 10/06/10 10:49:45 INFO mapred.JobClient: Task Id : attempt_201005281116_119912_r_000015_1, Status : FAILED 解决办法是在代码中定时rep

2010-06-10 11:33:00 4701 2

原创 利用simhash来进行文本去重复

原文http://d3s.mff.cuni.cz/~holub/sw/shash/#a1传统的hash函数能够将一样的文本生成一样的hash函数,但是,通过simhash方法,能够差不多相同的文档得到的hash函数也比较相近。Charikar's hash通过Char

2010-06-01 15:21:00 12064 1

原创 海明距离

wiki地址http://en.wikipedia.org/wiki/Hamming_distance 在信息领域,两个长度相等的字符串的海明距离是在相同位置上不同的字符的个数,也就是将一个字符串替换成另一个字符串需要的替换的次数。 例如: "toned" and "roses" is 3. 1011101 and 1001001 is 2. 2173896 and 2233796 is 3. 对于二进制来说,海明距离的结果相当于 a XOR b 结果中1的个数。 pyt

2010-05-31 18:15:00 17183 5

转载 LSH算法原理

原始链接--http://www.jiahenglu.net/NSFC/LSH.htmlLSH(Location Sensitive Hash),即位置敏感哈希函数。与一般哈希函数不同的是位置敏感性,也就是散列前的相似点经过哈希之后,也能够在一定程度上相似,并且具有一定的概率保证。 形式化定义:对于任意q,p属于S,若从集合S到U的函数族H={h1,h2...hn}对距离函数D(,),

2010-05-28 18:22:00 29033 2

原创 《Data-Intensive Text Processing with MapReduce》第4章-压缩

在用map-reduce进行倒排索引的建立的时候,进入文档的编号已经有序了,按照升序排序,这时候可以对文档编号进行压缩。例如,最开始的时候文档序列如下: 通过“相邻差”的方式对文档id进行压缩,结果如下 ,第二个文档的文档号7保存成第一个文档与第二个文档的差值,2=7-5,同理,第3个文档12保存成与第二个文档的差值,5=12-7。。。。,采取这种方式,差值的最差情况是:最大文档号

2010-05-23 08:40:00 1838

原创 用正态分布(高斯函数)为邻居分配权重

在计算完最近邻居之后,在进行推荐的时候,需要对最近邻居进行权重赋值,一避免选择了距离比较远的邻居。    如果采取邻居的倒数,如果距离是0的话,则权重就会无限大,对程序造成干扰。这时候,根据正态函数的“钟形函数”的特性,可以解决这个问题、 正态函数的公式如下 函数曲线如下: 这时候可以采取0,1的标准正态分布,为了保证距离为0的时候,结果为1,去掉前面的部分,只保留e指数的部分

2010-05-20 16:13:00 16921

原创 个性化文献-《Item-Based Collaborative Filtering Recommendation Algorithms》

这是一篇比较经典的item based的协同推荐方法。对公式介绍比较全面。 文章介绍了3个相似度计算公式: 1。余弦相似度公式 2。基于相关系数的相似度公式 这个公式主要是为了避免某个item打分普遍比较高的情况下,利用item的均值对评分进行处理。 3。调整的余弦相似度公式 该公式与上式的区别在于用用户的均值进行调整,避免某个用户总是倾向于打低分或者高分的情况。从最

2010-05-14 19:28:00 2739

原创 个性化文献--《Item-Based Top-N Recommendation Algorithms》

1。介绍了主要影响item-based的性能的两个方面。 (1)item之间的相似度计算的 将用户作为每个item的维度,用cosine计算相似度。 利用条件概率(conditional probability)来计算相似度,这样能偶区分有不同历史记录的用户以及,频繁和非频繁的被购买的item。 计算购买了item i后的用户后续购买item j的概率。公式如下 其中Freq(i)

2010-05-14 12:36:00 2953

原创 《Data-Intensive_Text_Processing0Awith_MapReduce》笔记第3章

3.1介绍通过本地聚合减少网络的传输量 第一种方法,通过在map中使用HashMap来聚合数据,HashMap的key是map中的key 为了避免可能的内存溢出,可以对输入的行进行计数,当达到一定的行数的时候,将map全部输出,或者将出现次数低的输出,保留出现次数多的key,与后续的数据融合。 mapreduce框架不保证combiner每次都能调用,在计算均值的时候,reducer不能当做

2010-05-13 18:00:00 739

原创 junit对输入输出流的单元测试

     这两天在写对hadoop程序进行单元测试的时候,由于使用了DistributeCache对文件进行缓冲,需要在SetUp的时候将cache文件添加进去。由于单元测试需要在移动到另外一个地方的时候,仍然能够测试通过,所以采取了如下的解决方法:    在SetUp的时候,创建文件,并作为参数传入进去,代码如下:    ///生成cache文件 @Before public

2010-04-30 16:49:00 3043

原创 hive数据导出

很多时候,我们在hive中执行select语句,希望将最终的结果保存到本地文件或者保存到hdfs系统中或者保存到一个新的表中,hive提供了方便的关键词,来实现上面所述的功能。1.将select的结果放到一个的的表格中(首先要用create table创建新的表格) insert overwrite table test select uid,name from test2;2.将

2010-02-09 12:38:00 9030 1

原创 hive数据导入

  由于很多数据在hadoop平台,当从hadoop平台的数据迁移到hive目录下时,由于hive默认的分隔符是/u0001,为了平滑迁移,需要在创建表格时指定数据的分割符号,语法如下:  create table test(uid string,name string)row format delimited fields terminated by /t;通过这种方式,完成分隔符的

2010-02-09 12:37:00 2876

原创 hive创建table时指定分隔符

  由于很多数据在hadoop平台,当从hadoop平台的数据迁移到hive目录下时,由于hive默认的分隔符是/u0001,为了平滑迁移,需要在创建表格时指定数据的分割符号,语法如下:  create table test(uid string,name string)row format delimited fields terminated by /t;通过这种方式,完成分隔符的

2010-02-08 21:42:00 45109 3

原创 hadoop 文件夹嵌套赋权限

hadoop fs -chmod [-R] URI [URI …]改变文件的权限。使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户 注意其中的-R选项,通过这个参数,实现了文件夹的递归赋权限。

2010-02-08 18:47:00 3714

原创 hadoop文件复制命令

      hadoop内置的distcp命令,采用map -reduce的方式对文件进行复制,对于大数据文件夹的复制,特别是文件夹的嵌套式很有效的。 不需要我们手工指定底层文件夹,即可完成复制。并且复制的结果文件与源文件文件名相同,不会出现part-*的文件的情况。    但是对于小数据文件,推荐使用hadoop内置的fs -cp命令,当hadoop比较拥挤的时候,启动一个map -re

2010-02-08 16:16:00 14746

原创 ati 正确安装驱动后重新设置分辨率---成功

电脑在在运行了xephyr了之后电脑刷新频率出现问题,只能设置到800*600了,解决方法如下:sudo dpkg-reconfigure xserver-xorg重新设置刷新频率,然后 sudo gedit /etc/X11/xorg.conf 在其中找到Section "Device"将其中的 "vesa"改为"openchrome"

2008-07-29 16:28:00 1198

原创 网页gb2312转 utf8(保存成后缀是vbs的文件将gb2312文件拖动到该文件即可)--成功

/*=========================================================================  * Intro       拖动所有要转换的gb2312编码文件到这个文件上,程序会将它们自动转换为utf-8编码文件  * FileName    GB2312.To.UTF-8.vbs  * Author      yongfa365

2008-07-27 21:12:00 3003 1

原创 tomcat5 绑定多域名--成功b50c24da

81行修改了两个参数值:maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" redirectPort="8443" acceptCount="100" connectionTimeout="20000" disableUploadTimeout="true" URIEncoding="GB

2008-07-25 10:59:00 1195 1

原创 YUI--grids

alimama_pid="mm_10754428_1533284_4071569"; alimama_titlecolor="0000FF"; alimama_descolor ="000000"; alimama_bgcolor="FFFFFF"; alimama_bordercolor="E6E6E6"; alimama_linkcolor="008000"; a

2008-07-22 16:43:00 728

原创 MFC ComboBox 使用方法-初始化,添加,得到选择的数据,得到数据的位置,删除

   Combo box controls are space savers. Wherever there is no need for a multi-select from a list of items, combo box is a good choice in such places. This article " CComboBox Example" explains how to

2008-07-21 16:41:00 15068 1

programming.collective.intelligence.aug.2007.pd

programming.collective.intelligence.aug.2007.pd

2009-08-29

Perl语言入门(第四版).pdf

Perl语言入门(第四版),perl,第四版,

2009-04-01

JS日期和时间选择控件

JS日期和时间选择控件JS日期和时间选择控件JS日期和时间选择控件

2007-05-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除