自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (2)
  • 收藏
  • 关注

转载 mapreduce 作业优化

map阶段优化参数:io.sort.mb(default 100)当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。而是会利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。每一个map都会对应存在一个内存buffer,map会将已经产生的部分结果先写入到该

2014-01-02 10:57:23 774

转载 “最小编辑距离(Minimum Edit Distance)”

一、课程介绍斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chirs Manning教授授课:https://class.coursera.org/nlp/以下是本课程的学习笔记,以课程PPT/PDF为主,其他参考资料为辅,融入个人拓展、注解,抛砖引玉,欢迎大家在“我爱公开课”上一起探讨学习。课件汇

2013-12-29 14:17:20 1142

转载 Flickr Tag Recommendation based on Collective Knowledge

本篇论文包含两个方面:通过对Flickr的统计,对用户如何使用标签和用户提供的标签有哪些种类进行了研究;另一方面,基于前一方面的分析,提出了四种不同的标签推荐策略,可以被用户用来向图片增加标签。结果表明,推荐的关联标签具备效率高、多层次的特点。1 相关背景      多媒体标注对大规模检索系统来说非常有用。目前基于内容的图片检索系统在不断演进,但是却不能很好的解决人类之间的语义鸿沟

2013-12-20 21:01:50 652

转载 nlp, ml, 学习书单

水木上的machine learning书单:http://www.newsmth.net/bbscon.php?bid=5&id=34859&ftype=11weibo上@王威廉最近有人询问教材的问题,在此我列12本北美比较常用的机器学习/自然语言处理/语音处理经典书籍。欢迎各位补充。http://weibo.com/1657470871/zpZ87mhND还有以前整理的一个书单

2013-11-23 19:43:39 1068

转载 python的nltk中文使用和学习资料汇总帮你入门提高

分类: Python2013-09-30 11:13 443人阅读 评论(1) 收藏 举报自然语言处理nltkpython目录(?)[+]nltk是一个python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具.1. nltk的安装资料1.1: 黄聪:Pyth

2013-11-23 19:13:10 1116

转载 mahout的安装及实验

ref: http://www.cnblogs.com/duzl/archive/2012/05/18/2507470.htmlApache Mahout 简介http://www.ibm.com/developerworks/cn/java/j-mahout/ 一.安装mahout需要的软件:1,jdk 1.6或以上 ,下载地址不提供了。2,maven 软件项目管理工

2013-10-13 00:06:37 981

转载 各大推荐引擎资料汇总

ref: http://blog.csdn.net/xceman1997/article/details/7941163视频类Netflix: 很多方法的融合。可以参考我翻译的blog。Hulu:  主要是item based CF。参考官方博客上的文章。Youtube:  开始是random walk,后来改为类似item based CF的方法。这是

2013-10-12 23:52:56 710

转载 数据挖掘著名学者的网站

原文地址:http://blog.csdn.net/dllian/article/details/7530581 韩家炜http://www.cs.uiuc.edu/~hanj/著名数据挖掘书籍,《数据挖掘概念和技术》作者,在DM界久负盛名。他的个人主页里面有很多他的papers,都非常经典;还有他所教授的课程,可以下载课件学习。Jian Pei

2013-10-12 23:42:40 982

转载 公开课可下载资源汇总

原文地址:http://blog.coursegraph.com/%e5%85%ac%e5%bc%80%e8%af%be%e5%8f%af%e4%b8%8b%e8%bd%bd%e8%b5%84%e6%ba%90%e6%b1%87%e6%80%bb微博上经常有同学分享一些公开课资源,包括可下载的网盘资源,课件资源等等,但是时间长了就忘了在哪里了。另外Coursera官

2013-10-12 23:41:05 1376

转载 Large-scale Parallel Collaborative Filtering for the Netflix Prize

ref: http://blog.csdn.net/waitingfotime/article/details/8983152最近使用ALS-WR分解矩阵,忙里偷闲,简单的翻译了这篇paper,很是佩服作者的思路。第一次翻译,各种不符,轻拍。建立一个专门讨论数据挖掘,推荐算法等的群,推荐系统之Mahout 13591891,欢迎大家加入一起讨论。摘要:    众多推荐系统使

2013-10-10 21:05:07 928

转载 GraphChi—让你迅速提升计算机性能

GraphChi是从卡内基 - 梅隆大学的GraphLab项目之一。可以让一台普通PC处理N倍于以往的数据。特点便是能然硬盘当作内存来使用(包括出传统硬盘或固态硬盘)。项目Google Code地址 以及完整介绍GraphChi Java版项目地址

2013-10-10 16:18:24 2110

转载 Collaborative filtering with GraphChi

原文链接:Collaborative filtering with GraphChi本文是GraphChi平台的协同过滤工具箱的快速指南。到目前为止,已经支持ALS(最小二乘法)、SGD(随机梯度下降)、bias-SGD(带偏置的随机梯度下降)、SVD++、NMF(非负矩阵分解)、SVD(restarted Lanczos、one sided Lanczos,svd可以

2013-10-10 12:13:59 1199

转载 最优化之路

ref: http://www.cnblogs.com/joneswood/archive/2012/03/11/2390529.html进入算法研发部,在大致了解部门的项目构成,主要职责之后,我意识到最优化算法在各个项目组中都具有重要的作用,例如CTR预估、排序等。然而,由于自己在读博期间除了“逻辑回归”以外,没有系统参与过涉及最优化的项目,因此在还没有分配到具体任务的情况下,首先自发地对最

2013-10-09 23:37:17 1313

风雨独立路-李光耀回忆录

风雨独立路-李光耀回忆录 风雨独立路-李光耀回忆录 风雨独立路-李光耀回忆录

2008-11-16

2006年电脑超级技巧5000招

2006年电脑超级技巧5000招.pdf

2008-11-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除