自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

overstack的专栏

一个挨踢青年的成长历程。

  • 博客(250)
  • 收藏
  • 关注

转载 数据分析的陷阱

1.辛普森悖论WIKI原始连接:http://zh.wikipedia.org/wiki/%E8%BE%9B%E6%99%AE%E6%A3%AE%E6%82%96%E8%AE%BA当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年

2014-07-15 10:14:02 11243

转载 10 Most Common Mistakes that Python Programmers Make

About PythonPython is an interpreted, object-oriented, high-level programming language with dynamic semantics. Its high-level built in data structures, combined with dynamic typing and dynamic b

2014-07-07 12:58:59 5409

转载 Python Advances

关于Python的好文章集锦:1.Top 10 Mistakes that Python Programmers Make2.Advanced Data Structures in Python中文翻译版本:Python高级数据结构3.Introduction to the Python Interpreter中文翻译版本:Python解释器简介4.

2014-07-07 12:58:26 5529

转载 动态规划问题简介-from july

2014-06-27 16:47:52 5181

转载 python 中文乱码问题深入分析

一直以来,python中的中文编码就是一个极为头大的问题,经常抛出编码转换的异常,python中的str和unicode到底是一个什么东西呢?在本文中,以'哈'来解释作示例解释所有的问题,“哈”的各种编码如下: 1. UNICODE (UTF8-16),C854; 2. UTF-8,E59388; 3. GBK,B9FE。 一、pytho

2014-06-26 18:07:35 5270

原创 2014 Machine Learning Summer School

MLSS 6月份在北京的一些关于及其学习的资料,有一些很bucu

2014-06-18 01:00:46 5340

转载 机器学习 实用技巧

和大多数人一样,小弟对各种机器学习和数据挖掘算法都小有兴趣,常用的算法也都知道基本思想,但尝试不多。最近收集了一些算法的实用技巧,待有空时仔细研读。(1)机器学习那些事 & 机器学习根基那些事儿:http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf根基:http://www.cs.cmu.edu/~tom/pubs

2014-06-12 01:47:19 5457

转载 Machine Learning Done Wrong(机器学习七种易犯的错误)

作者总结了机器学习七种易犯的错误:1.想当然用缺省Loss;2.非线性情况下用线性模型;3.忘记Outlier;4.样本少时用High Viriance模型;5.不做标准化就用L1/L2等正则;6.不考虑线性相关直接用线性模型;7.LR模型中用参数绝对值判断feature重要性。

2014-06-05 17:45:35 5555 1

转载 寻路推荐(理念篇)

两年多前,我在阿里技术沙龙讲了一个名为“寻路推荐”的topic,介绍了自己在豆瓣时代做的几个典型案例,属于比较务实的一个topic,自己把它定位为“实践篇”。随后一直想整理一个务虚版的“理念篇”,作为前置于“执行”的“思辨”过程,顺便把自己的寻路历程补充完整。来到阿里这大半年,无论技术层面还是产品/业务层面,与前厂对比都非常强烈,也极大地刺激了自己的思维。感谢豆瓣给了我独立思考的空间和充分

2014-06-05 17:16:41 5347

转载 现代浏览器的工作原理

英文原文:Tali Garsiel,编译:zzzaquarius简介浏览器可以被认为是使用最广泛的软件,本文将介绍浏览器的工 作原理,我们将看到,从你在地址栏输入google.com到你看到google主页过程中都发生了什么。将讨论的浏览器今天,有五种主流浏览器——IE、Firefox、Safari、Chrome及Opera。本文将基于一些开源浏览器的例子——Fir

2014-05-13 19:12:50 8071

转载 Python 程序员经常犯的 10 个错误

关于PythonPython是一种解释性、面向对象并具有动态语义的高级程序语言。它内建了高级的数据结构,结合了动态类型和动态绑定的优点,这使得它在快速应用开发中非常有吸引力,并且可作为脚本或胶水语言来连接现有的组件或服务。Python支持模块和包,从而鼓励了程序的模块化和代码重用。关于这篇文章Python简单易学的语法可能会使Python开发者–尤其是那些编程的初学者–忽视

2014-05-13 19:07:23 7889

转载 余凯在清华的讲座笔记

2014.4.4,余凯在清华FIT楼做了“Deep Learning Unfolds the Big Data Era”的讲座。感觉这个讲座还是比较high-level的,毕竟90分钟也很难把这么大的问题讲清楚。根据我的理解,讲座主要分成4部分:1. Deep Learning怎样被工业界看重并火得一塌糊涂;2. 分析了一下shallow model和deep

2014-04-04 23:43:58 5514

转载 深度学习读书笔记之RBM

/*****************************  转自:http://blog.csdn.net/mytestmy/article/details/9150213****************************/声明:1)看到其他博客如@zouxy09都有个声明,老衲也抄袭一下这个东西2)该博文是整理自网上很大牛和机

2014-03-26 01:49:24 7988

转载 【机器学习系列】机器学习16本免费电子书

The LION Way: Machine Learning plus Intelligent Optimizationby Roberto Battiti, Mauro Brunato - Lionsolver, Inc., 2013The introduction of the book says, “Learning and Intelligent Optimization (L

2014-03-25 23:11:37 5426

转载 无插件Vim编程技巧

相信大家看过《简明Vim教程》也玩了《Vim大冒险》的游戏了,相信大家对Vim都有一个好的入门了。我在这里把我日常用Vim编程的一些技巧列出来给大家看看,希望对大家有用,另外,也是一个抛砖引玉的过程,也希望大家把你们的技巧跟贴一下,我会更新到这篇文章中。另外,这篇文章里的这些技巧全都是vim原生态的,不需要你安装什么插件。我的Vim的版本是7.2。浏览代码首先,我们先从浏览代码开始

2014-03-25 00:05:16 5125

原创 微博上流传的BAT对应级别和工资

2014-03-24 19:56:18 7225

转载 分布式机器学习的故事(四):Rephil和MapReduce——描述长尾数据的数学模型

Google Rephil是Google AdSense背后广告相关性计算的头号秘密武器。但是这个系统没有发表过论文。只是其作者(博士Uri Lerner和工程师Mike Yar)在2002年在湾区举办的几次小规模交流中简要介绍过。所以Kevin Murphy把这些内容写进了他的书《Machine Learning: a Probabilitic Perspecitve》里。在吴军博士的《数学之美

2014-02-21 12:54:48 8530 1

转载 恢复Ext3下被删除的文件

下面是这个教程将教你如何在Ext3的文件系统中恢复被rm掉的文件。假设我们有一个文件名叫 ‘test.txt’ $ls -il test.txt 15 -rw-rw-r– 2 root root 20 Apr 17 12:08 test.txt 注意:: “-il” 选项表示显示文件的i-node号(15),如果你不知道Unix/Linux文件系统的“I结点”的话,

2014-02-14 01:45:21 4842

转载 批处理 屏幕 定时截图 循环 键 PrintScreen 第三方工具 nircmd

1、实现目标想对电脑屏幕每1秒钟(时间可以改动)截图一次,保存截图到电脑指定位置,可指定图片格式(*.jpg *.bmp *.gif)同时能规定指定截图30分钟(时间可以改动)。2、代码及工具 ---------------------------------代码--------------------------------@echo offif not

2014-01-07 02:11:40 13393

转载 Recsys2013论文导读

月中在香港参加recsys2013会议,文章不少,对我有价值的并不算多,再跟目前工作相关的就更少了。这里过滤了几篇我觉得比较有意思的文章,加上了自己的理解,作为导读。A Fast Parallel SGD for Matrix Factorization in Shared Memory Systems (best paper,p249.pdf)这篇来自台湾国立大学libsvm团队

2014-01-05 23:12:06 8661

转载 在Quora上关于netflix的top model的总结

I'll try to describe some of the ideas here. Matrix factorization techniques and ensemble methods are perhaps the algorithms most often discussed in connection with the Netflix Prize, but a lot of o

2013-11-19 00:10:53 1720

转载 推荐系统中矩阵分解方法:svd,非对称svd和svd++的区别

Some SVD-inspired methods used in the Netflix Prize include:Standard SVD: Once you've represented users and movies as factor vectors, you can dot product Alice's vector with Inception's vector t

2013-11-18 23:52:02 4908

转载 Implicit data and collaborative filtering(隐式反馈和协同过滤)

这片文章来自spotify,一个美国音乐推荐网站软件工程师ERIK BERNHARDSSON的文章,文章解释了推荐系统当中常见的几个误区和他自己的一个理解。A lot of people these days know about collaborative filtering. It’s that Netflix Prize thing, right? People rate thi

2013-11-15 00:30:58 2273

转载 spotify上关于推荐的一个benchmark

A lot of people have asked me what models we use for recommendations at Spotify so I wanted to share some insights. Here’s benchmarks for some models. Note that we don’t use all of them in production.

2013-11-15 00:12:16 1624

原创 vim中copy或者delete的技巧

You mention cutting with yy and complain that you almost never want to cut whole lines. In fact programmers, editing source code, very often want to work on whole lines, ranges of lines and blocks of

2013-11-14 01:49:36 1362

转载 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)

前言:  找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。  纵观IT行业的招聘岗位,机器学习之类的岗位还是挺

2013-11-11 00:58:26 1225

转载 理解矩阵、矩阵的现实意义(二)

上一篇里说“矩阵是运动的描述”,到现在为止,好像大家都还没什么意见。但是我相信早晚会有数学系出身的网友来拍板转。因为运动这个概念,在数学和物理里是跟微积分联系在一起的。我们学习微积分的时候,总会有人照本宣科地告诉你,初等数学是研究常量的数学,是研究静态的数学,高等数学是变量的数学,是研究运动的数学。大家口口相传,差不多人人都知道这句话。但是真知道这句话说的是什么意思的人,好像也不多。简而言之,在我

2013-10-16 00:14:05 1376 1

转载 理解矩阵,矩阵背后的现实意义

对于线性代数的类似上述所提到的一些直觉性的问题,两年多来我断断续续地反复思考了四、五次,为此阅读了好几本国内外线性代数、数值分析、代数和数学通论性书籍,其中像   前苏联的名著《数学:它的内容、方法和意义》、   龚昇教授的《线性代数五讲》、   前面提到的Encounter with Mathematics(《数学概观》)   以及Thomas A. Ga

2013-10-16 00:13:20 1674

转载 Cracking the coding interview--问题与解答

作者:Hawstein出处:http://hawstein.com/posts/ctci-solutions-contents.html声明:本文采用以下协议进行授权: 自由转载-非商用-非衍生-保持署名|Creative Commons BY-NC-ND 3.0 ,转载请注明作者及出处。前言《Cracking the coding interview》是一本被许多

2013-10-09 19:21:55 2696

转载 word2vec的学习思路

夜里坐在椅子上发着呆,想着到底接下来学点什么比较合适,大脑里把知识列举了一遍,却突然间把之前一直没有想通的word2vec明白了一些。大致说一下该算法的学习顺序所及参考文献。不会Latex的人只能截图了…..1. 多层神经网络  熟悉神网的人就不用再看了,总之就是

2013-09-26 13:05:26 1705

转载 Python内存泄露的诊断

Python内存泄露的诊断内存泄露的原因内存泄露的诊断思路内存泄露诊断用到的工具内存泄露诊断的步骤参考文档对于一个用 python 实现的,长期运行的后台服务进程来说,如果内存持续增长,那么很可能是有了内存方面的问题。 在我曾经的一个项目中,就出现了这种内存持续增长的情况,goolge 一下,发现 Tracing Python memory leaks 讲了一种诊断方式

2013-09-12 19:43:58 2927

转载 用python写文件输出,解决输出的中文为乱码问题

(1)、python代码文件的编码py文件默认是ASCII编码,中文在显示时会做一个ASCII到系统默认编码的转换,这时就会出错:SyntaxError: Non-ASCII character。需要在代码文件的第一行或第二行添加编码指示:1 # coding=utf-8 ##以utf-8编码储存中文字符2 print '中文'像上面那样直接输入的字符串是按

2013-09-12 19:42:47 23996

转载 Python垃圾回收(gc)拖累了程序执行性能?

Python起因前段时间,在做文本处理的实验时,需要预加载大量的原始数据(100W),在Python中使用的字典(dict)类型负责保存这些数据,很快就开发完成 了一个Demo版,然而程序执行的效率不是那么令人满意,通过使用Python中的profile发现,影响程序执行性能的关键语句就那么几条(用 dict保存加载后原始数据,这是个循环遍历。)解决问题既然找到

2013-09-12 14:59:55 11653

转载 Python pdb 简要指南

Python pdb 简要指南pdb常用的启动方式a) 通过 pdb.run 方法:>>> import pdb>>> import mymodule>>> pdb.run('mymodule.test()')b) 命令行参数方式python -m pdb myscript.pyc) 最常用的是将下面一行插入到欲Debug的代码特定位置:

2013-09-11 12:07:10 966

转载 灵异的shell

1 引子2 语法介绍2.1 定义2.2 管道2.3 引用 (QUOTING)2.4 参数 (PARAMETERS)2.5 扩展 (EXPANSION)2.6 重定向3 小技巧4 工具4.1 log4sh4.2 shunit4.3 bashdb5 shell快捷键6 shell炸弹7 shell加密7.1 shc7.2 wzsh8 宝典1 引子

2013-09-06 16:51:24 979

转载 Linux下文本的高效处理

1 引言2 关于输入3 文本输出3.1 整个输出3.2 部分输出4 文本搜索4.1 grep (Global Regular Expression Print)4.2 fgrep4.3 egrep4.4 rgrep4.5 agrep (approximate grep)4.6 zgrep4.7 sgrep (structured grep)4.8 nrgrep (Nondete

2013-09-06 16:36:41 1657

转载 linux awk 内置函数详细介绍(实例)

这节详细介绍awk内置函数,主要分以下3种类似:算数函数、字符串函数、其它一般函数、时间函数 一、算术函数:以下算术函数执行与 C 语言中名称相同的子例程相同的操作:函数名说明atan2( y, x )返回 y/x 的反正切。cos( x )返回 x 的余弦;x 是弧度。sin( x

2013-09-04 13:33:17 766

转载 数组统计分析

数组统计分析原题给定数组A,大小为n,数组元素为1到n的数字,不过有的数字出现了多次,有的数字没有出现。请给出算法和程序,统计哪些数字没有出现,哪些数字出现了多少次。能够在O(n)的时间复杂度,O(1)的空间复杂度要求下完成么?分析这个题目,是有一定技巧的。技巧是需要慢慢积累,待经验多了之后,可以灵感或者直觉,就产生了技巧。如果不知道技巧,那该怎么办呢?在开

2013-09-04 13:11:31 947

转载 Turning Vim into a modern Python IDE

ContentsIntroBasic Editing and DebuggingCode FoldingWindow SplitsSnippetsTask listsRevision HistorySyntax Highlighting and ValidationPep8Tab Completion and DocumentationC

2013-08-27 20:54:48 1545 1

转载 互联网薪水

2013-08-26 23:29:04 802

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除