axuanwu的专栏

好读书 不求甚解

FM的快速增量算法猜想

背景接触FM方法时间也算是很久了,虽然没有持续在上面做非常深入的研究,但是做的几个项目中,多次使用后也算是也算是业余玩家中的高端玩家了。在前期的一个项目中深入的参与了spark中的ALS推荐模型(其实本质是FM,als是指其中最优化的算法),其中主要参与解决的问题就是增量推荐(场景中是解决新用户的...

2017-11-28 20:18:08

阅读数 320

评论数 0

top100峰会有感

top100峰会——百箱大战的联想百箱大战的箱指的是“小爱同学“ “天猫精灵“等这类具备一定人工(机器)智能的音箱,称之为大前端的产物或许才更能说明他的重要性。大前端:前端的亦即 UI ,就是人机交互,大前端就是指人工智能时代或者未来时代更方便的交互方式。 更方便的交互: 人是怎么向人表达意图呢...

2017-11-10 21:05:52

阅读数 202

评论数 0

协同过滤中显性反馈 与 隐性反馈 的区别(附ALS最优化)

协同过滤中显性反馈 与 隐性反馈 的区别1. 特质上的区别显性反馈行为:用户明确表示对物品喜好的行为。 隐性反馈行为:不能明确反映用户喜好的行为。隐性反馈的特性 没有负反馈。隐性反馈无法判断是否不喜欢。而显性反馈,明显能区分是喜欢还是不喜欢。 先天性具有噪声。用户购买了某物品,并不代表他喜欢,也...

2017-07-07 18:52:03

阅读数 2129

评论数 0

提问的礼仪

提问的礼仪1. 谷歌、百度 前三页大多数的技术问题都能在百度、谷歌、官方文档、博客 找到答案,如果中文找不到答案可以试试英文。2. 清晰的提问在Google Code社区提问的时候,会自动生成一个模板: What steps will reproduce the problem? 该问题的重...

2017-07-07 18:15:43

阅读数 538

评论数 0

集合的最优分组问题

问题仓库人员需要按照订单上的信息将商品从货架上拣选出来,这些订单大致形态如下:订单1:{商品1、商品2、商品3} 订单2:{商品2、商品3、商品5、商品6、商品7} 订单3:{商品1、商品4} …… 订单10000:{商品239、商品445、商品500}假定总共1万订单,商品种类500种。...

2017-01-18 16:49:55

阅读数 1670

评论数 0

GBDT 学习

这么多乱七八糟的“算法”,为什么要学GBDT呢?主要是最近听到这个名词比较多,想了。那么为什么要再写GBDT呢(鉴于各种牛人满天飞,我怎么就好意思献丑了)?着实是看看了网上一些博客后,有很多疑问,后来自己把这些疑问解决了,就想着分享一下,减少大家的学习成本。所以我就不再从头说起了,新朋友可以参拜一...

2016-05-01 17:04:27

阅读数 2548

评论数 0

数据理想国

0. 絮 前些阵子去听了一个和大数据有关的会议,发言人中有两拨: 第一拨人:极力宣扬大数据的威力,用各种案例来阐述大数据的高深莫测。 第二拨人:在说大数据之前,和大数据划清界限。就像是对待伪科学一样谨慎。 至于是非善恶咱就不掺合,我只负责打工。不过有一点是比较明确地:大数据时代尚处在成长...

2016-01-31 16:16:12

阅读数 648

评论数 0

推荐系统学习之概率算法及其增量算法

谈到推荐吧,我知道的也很少,总括的这种就不吹了。第一个和概率有关的推荐算法应该是**“关联规则挖掘”**,就是置信度、支持度那个,我就不多言了,接下来一个的则是**“Page Rank”**,这一个方法曾经被广泛的用于搜索引擎的网页排名中,亦是本文将要关注的重点对象。而选择这一个**too you...

2016-01-25 19:30:59

阅读数 2594

评论数 0

小样本分析(三)

虔诚的我提出一个问题,希望知识能给我答案,然而他以一个新的问题作为回答。 导读: 这篇是继前两篇小概率估算的后续,很多地方没有说,建议先粗略看一下前面的,了解一下估算的思路。由于公式较多直接从word截图偷个闲。 条件极值: 【注:拉格朗日乘数法我也忘记得差不多了,在网上找到的例子也主要是只...

2015-10-07 19:04:34

阅读数 2060

评论数 0

SVD 梯度下降

# coding=utf-8 import numpy as np import time import math __author__ = '01053185' # 2015年 9 月 25 日 class XMatrix(): def __init__(self, m=1000, n...

2015-09-25 21:53:30

阅读数 2317

评论数 2

证明:贝叶斯多条件的独立化的基础理论

花絮:         非常喜欢《天才J》这部小剧,里面有个的偶然公式,包含3个要素:时间、空间、守恒。这个公式最后被J破解掉了,破解的思路却很有意思:当观察一个个体的时候偶然性是必然的,但是观察一个大的群体时,偶然性又会消失。这个剧的作者估计也是学过概率论的。 独立→正交:        ...

2015-09-21 18:53:07

阅读数 1654

评论数 0

朴素贝叶斯的拓展

花絮:        前阵子我养了一非常笨的鱼,我花了好久好久教他爬树,猜结果怎么着?他死了,死在树上了。哎,有些事情就是这么毋庸置疑——有一条鱼笨死在树上。       几天前有人做了一个数据挖掘算法的培训,由于是泛泛而谈,我也是听了等于没听——说的都知道,不知道的也没说。不过回去的路上却对贝叶...

2015-09-20 22:03:05

阅读数 1070

评论数 0

SVD奇异值分解

http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html  今天看了这篇博客博主的一些文章,感觉很有收获。突然想到自己也写过svd的东西,就来看看自己的,才发现被之前不小心删除了。理论方面的东西就不多说了,这里会贴上两个不同实...

2015-07-30 18:04:12

阅读数 432

评论数 0

小样本分析(二)

东西写好之后,确认了几件事情,今天拿出来水一下。公式这个真是麻烦死了,markDown也不好用,只好把word里面的公式都去掉,重新写一点。 引子:        一个暗盒子里面装满了球(认为足够多),拿出一个球发现是红球,再拿出一个还是红球的概率是多少?小样本分析主要回答的就是这一类问题。在以...

2015-07-21 07:50:21

阅读数 2518

评论数 2

小样本时的概率估算

本文严重参考了《Foundations of Statistical Natural Language Processing》和《MaximumEntropy Language with Non-Local Dependencies》(吴军);侵权则删。本文本着传播信息的不失真的理念,主要对其中...

2015-07-06 09:09:42

阅读数 1229

评论数 1

穆勒五法——因果关系

穆勒五法: 数据分析往往提到“相关关系”,但是鄙人仍然是一个“因果关系”的追随者。去网上找了一下因果关系的东西,最后发现了“穆勒五法”。这个总结非常到位,日常生活中我们经常用,但是很少把他提升到一个方法论的高度来关注。大家可以百度一下穆勒五法,主要还是通过对比来找原因,本文就不赘述了。下面谈谈个...

2015-05-23 15:44:14

阅读数 2129

评论数 0

强规则

外传: 最近我在《统计自然语言处理基础》中看到的一个处理概率的问题,和我之前想的有相同之处:利用贝叶斯理论,但是原假设上我们确不同。感新区的朋友可以去看看该书的2.1.10 贝叶斯统计章节。 什么是强规则? 顾名思义,强规则就是很强的规则,一般来说就是指凌驾于一切规则之上的规则,他是最基础、最本质...

2015-05-06 11:12:23

阅读数 1099

评论数 0

文本分类(power 8算法挑战赛第五期)

这一期比赛可以说是刚好对上我胃口,总算和是和机器学习沾上边了。我的这个方法是采用的是贝叶斯方法,效果达到85.5%,这里给出来分享一下,其他训练方法的朋友也可以交流一下。 先说一点题外话: 之前写的“小样本理论”已经在近期完善了(在连续几个月的时间里,我一想这个问题脑袋就一片浆糊),但...

2015-04-26 11:44:53

阅读数 1368

评论数 0

质数计算2

质数计算这一个我也是想了很久,网上参考偏少,但是自己也是想到了不少觉得值得分享的东西。下面就简介一下。 1、合数分类的方法不是只有一个。 2、一定范围内的合数必定由两个质数相乘。 3、周期性。 针对以上的特点我一共开发了10个不同的计算质数的版本。由于C++掌握的不好,这里贴两个源码给大家看看。 ...

2015-04-01 09:04:11

阅读数 402

评论数 0

第四期POWER8大赛(计算质数)

这是一个实现计算素数的问题。但由于这 个问题本身的特殊性(输出某范围内所有素数),我给出一个方案,或许和大家的一样。 bool数组A:A[i]=True表示 2*i+1 为素数。如果要找10亿以内的素数,就要申请一个5亿bit的bool数组A,占用空间略小于100M,这种小范围的情况还是可用的。A...

2015-03-14 03:31:11

阅读数 550

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭