自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Look into "A Neural Network in 11 lines of Python"

A toy code “A Neural Network in 11 lines of Python” is famous with machine learning starters. I’m wondering how many people really look into it because the derivatives by author is a bit strange.

2017-03-22 16:07:06 355

原创 Example of Chain Rule in Gradient Back-propagation in LR

Example of Gradient Back-propagation in LR

2017-03-20 01:21:47 521

原创 Semi-supervised Learning

简单聊一下Semi-supervised Learning(SSL)分类时, 两个可用的方法: self-training与active learning.

2016-11-30 00:42:53 700

原创 从KNN到Kernel

从KNN到Kernelknn(k nearest neighbour)算法, 是个简单直观的分类算法, 相信大家也都有所了解. 现在我们脑洞大开, 聊一个knn变形的故事.

2016-11-11 10:48:36 1820

原创 Python的package安装到哪里了?

Python的package安装到哪里了?package放到哪里去了? 怎么好像乱七八糟的?打开site-packages目录, 里面是各种安装好的包. 但是目录名格式各异. 这是怎么回事?

2016-11-04 19:51:31 7738

原创 Hadoop Streaming & Hive Tips

Hadoop Streaming & Hive Tips

2016-09-14 11:10:56 411

转载 AUC与ROC

ROC与AUC的理解

2016-09-05 11:46:45 515

原创 Recommender System Fragment 2

Queue_A could be managed semi-manually.Cold-start solution: Each queue, Queue_D, could be split to 2 sub-queues. One to store cold items which would be proposed to HF users cz such users have read eno

2016-08-12 20:28:53 195

原创 SimHash

有这么一个场景: 我们想衡量两个item之间的相似度(即距离, 比如计算两篇doc的相似度来进行去重). 每个item都用一个feature vector来表示. 这个vector往往很稀疏, vector的每个维度的值常表示某特征是否存在{0, 1}或出现的次数或者重要性.一个传统的还不错的方法是使用杰卡德相似度(Jaccard Similarity).

2016-07-20 19:08:37 591

原创 Recommender System Fragment 1

Recommender System Fragment_1

2016-07-14 20:04:58 255

原创 布隆滤波器(Bloom Filter)

试想一个场景, 做推荐业务时, 我们需要避免在某个时间区间内给用户推荐重复的item, 于是我们会记录给某用户推荐过的item set. 当我们要给他推荐一个新item时, 得先去历史推荐的item set里面查询, 如果发现推荐过了, 就不再重复推荐. 进一步抽象来讲, 我们就是想查询某个元素是否在一个set中.

2016-07-08 20:41:53 1449

原创 osx安装qutip备忘

写给不太懂编程的朋友. ​ 设备: 最新版os 10.11.5的mac. 系统自带的python2.7, numpy和scipy.

2016-07-08 20:08:07 1166 1

原创 LDA in spark测试备忘

LDA是什么? 我也不懂.. 大概就是, 一堆article, 每个都是由word们组成, 想给它们聚类成K(超参数)个topic, 还能求出一个p(word|topic). 计算过程大概就是玩{article, word, topic}之间的各种概率, 迭代计算, 细节玄机茫茫多.目标: 跑一遍流程, 有个初步了解, 能算出一个勉强能看的topic下的key word list.

2016-07-08 19:55:50 571

原创 mac osx配置spark in scala with intellij idea备忘

目标: mac osx + spark1.3.0 + scala 2.10.6 + intellij idea 15. 能够在本地ide开发, 本地local模式测试, 打包扔到集群上跑. 希望scala和sbt装在本机全局可用, 不止用于这一个项目. {命令行大法在往后翻, 在分割线之后}

2016-07-08 18:54:10 3146

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除