Data mining
nana-li
越努力,越幸运!
展开
-
用户画像设计示例
更新 -- 20180905用户画像指通过挖掘用户信息来更好的描述用户的特征,是将数据标签化的过程。对用户画像的设计主要包括两大类信息:①可直接获取信息或者通过简单聚合操作得到的特征;②挖掘类特征。挖掘类特征指可以根据用户的直接行为信息挖掘出用户的潜在兴趣爱好等。下面是一个实例简单说明用户画像的设计:下面以电商平台用户画像的设计为例,我们的目的是找到那些比较忠于本平台的卖家。简单业...原创 2017-04-23 09:15:48 · 8167 阅读 · 0 评论 -
Bootstrap抽样和Monte Carlo思想
写在前面总是搞不懂、记不住这些名字好像很厉害的算法思想,这篇文章主要写一下Bootstrap抽样和蒙特卡罗算法思想。一、Bootstrap抽样1、基本思想Bootstrap抽样的基本思想是在全部样本未知的情况下,借助部分样本的有放回多次抽样,构建某个估计的置信区间,抽象地说,通过样本得到的估计并没有榨干样本中的信息,bootstrap利用重采样,把剩余价值发挥在构建置信区间原创 2018-01-17 10:28:51 · 24484 阅读 · 2 评论 -
极大似然估计详解
原文链接:极大似然估计详解极大似然估计 以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计有了新的认识,总结如下:贝叶斯决策 首先来看贝叶斯分类,我们都知道经典的贝叶斯公式: 其中:p(w):为先验概率,表示每种类别分布的概率;:类条件概率,表转载 2018-01-17 11:07:35 · 778 阅读 · 1 评论 -
Bootstrap抽样:0.632自助法
Bootstrap方法:每当选中一个元组,这个元组同样也可能再次被选中并再次添加到训练集中。例如,想象一台从训练集中随机选择元组的机器,在有放回的的抽样中,允许机器多次选择同一个元组。有多种自助方法,最常用的是 .632自助法。方法如下:假设给定的数据集包含d个元组,该数据集有放回的抽样d次,产生d个样本的自助样本集或训练集。原始数据元祖中的某些元组很可能在该样本集中出现多次。没有进入该转载 2018-01-15 21:05:57 · 12096 阅读 · 0 评论 -
StanfordCoreNLP: 英文句子词性还原、词干标注工具包简单使用(Java)
一、说明StanfordCoreNLP是Stanford开发的关于自然语言处理的工具包,其包括分词、词性还原以及词性标注等很多功能。具体可参考官网:https://stanfordnlp.github.io/CoreNLP/。 这里主要是将其词性还原功能的简单使用。二、下载和使用1、下载地址:https://stanfordnlp.github.io/CoreNLP/,下载界面如下图:...原创 2018-04-17 14:53:52 · 6811 阅读 · 1 评论 -
PageRank算法和HITS算法
PageRank是google搜素算法用到的算法思想。关于PageRank的背景网上有很多,这里不再介绍,下面本文将从以下方面介绍PageRank:PageRank原理PageRank举例PageRank实现使用networkX调用pagerank算法一、PageRank原理PageRank算法主要应用在搜索引擎的搜索功能中,其主要用来计算网页的重要程度,将最重要的网页展示在网...原创 2018-07-27 13:04:57 · 8269 阅读 · 1 评论 -
[布隆过滤器BloomFilter] 举例说明+证明推导
写在前面网上有很多写布隆过滤器的博客,但是大部分都是只关注一个点,不能非常好的从原理到应用理解,所以这里对布隆过滤器进行了整理。很多思想和例子都来自网上的的一些博客,非常感谢这些可爱哒人儿的付出,这里会尽量整理的比较详细,规整,有头有尾。一、引例在提到实现去重功能时,大部分人都会直接选择HashSet,HashSet可以起到去重的效果,并且其时间复杂度为O(1)O(1)O(1),但是其存在的...原创 2019-03-13 12:49:30 · 4410 阅读 · 1 评论