自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 2021-04-06

Numpynp.random.multivariate_normal方法浅析matplotlibSeabornTorchTorch线性回归torch.lstsq()

2021-04-06 17:04:33 111

原创 推荐系统:基于内容Content-based,协同过滤Collaborative Filtering

Content-based recommending system算法思想:在我们已经有了用户一部分数据的前提下,推荐与用户之前喜欢的产品的类似产品。对每个商品设置一个 item profile。对每个用户也初始化一个user profile。首先我们需要对于用户数据进行规一化(Normalize)以保证归一化后的数据取值在 [0,1] 范围中。举个例子,对于有A演员参演的两部电影,某一用户打分3分和5分,对于有B演员参演的另外三部电影,该用户打分1分,2分和4分,此时会发现B演员参演的电影波动很大,

2021-01-10 10:16:29 1235

原创 距离与相似度:欧氏距离,Jaccard距离, 余弦距离,编辑距离

Jaccard距离余弦距离

2021-01-09 13:05:25 884

转载 概率分布函数,概率密度函数

引用自 应该如何理解概率分布函数和概率密度函数?概率密度函数:想象有一个无限长的杆,总质量为1,概率密度就是某个点处的质量密度。先从离散型随机变量和连续性随机变量说起对于如何分辨离散型随机变量和连续性随机变量,我这里先给大家举几个例子:1、一批电子元件的次品数目。2、同样是一批电子元件,他们的寿命情况。在第一个例子中,电子元件的次数是一个在现实中可以区分的值,我们用肉眼就能看出,这一堆元件里,次品的个数。但是在第二个例子中,这个寿命它是一个你无法用肉眼数的过来的数字,它需要你用笔记下来,变成一

2021-01-08 16:41:54 1186

原创 寻找相似集 similar sets

ShinglingJaccard Similarity and ShinglingMinhashing最小哈希签名Locality-Sensitive Hashing局部敏感哈希算法

2021-01-08 16:41:02 404

原创 数据聚类: 层次聚类 hierarchical clustering,K-means, BFR, Cure algorithm, DBSCAN

K-means聚类BFRThe cure algorithm

2021-01-08 16:01:56 1081

原创 Bootstrapping method

引用自Bootsrapping指的就是利用有限的样本资料经由多次重复抽样,重新建立起足以代表母体样本分布的新样本。统计中我们常常需要做参数估计,具体问题可以描述为:给定一系列数据,假设它们是从分布中采样得到的,参数估计就是希望估计分布中的。bootstrapping算法的目的就是为了估计从而得到的分布的预测。具体地,它的思想对已有的观测值进行多次重复的抽样,每次抽样都可以得到一个预测的经验分布函数,根据这些不同抽样得到的经验分布函数,可以得到一个更好的关于统计量分布的估计。打个比方,如果现在有N个

2021-01-05 15:14:14 2534 1

原创 频繁项集与关联规则Frequent Itemset Mining and Association Rules、A-Priori算法 , PCY算法

目标:寻找大量客户通常共同购买的项目方法:使用收集的销售数据寻找频繁项集频繁项集 Frequent Itemset一个经典规则:如果有人买尿布和牛奶,那么他/她很可能买啤酒!购物篮模型:描述两类对象的多对多关系。项:商场中的不同商品购物篮:每个顾客购买的商品总和支持度support:指包含项集I的购物篮个数通常我们会设置一个阈值S(support threshold)。如果项集I的支持度(I的子集)≥ S,那么I是频繁项集。关联规则 Association Rules可信度 con

2020-12-23 17:39:09 3107 3

原创 pnorm,dnorm

最近统计课学习r语言,首先学习使用正态分布的函数,但是在中文网上的资料基本都是复制粘贴的重复已知信息,遂从英文网站与自身使用经验总结以下知识。pnormpnorm返回的是累积概率,即正态分布中x的左侧概率。下图所示为N(1,4)累计概率密度。使用方法pnorm(q, mean, sd) ,q:x点,mean均值μ,sd标准差σ。如果pnorm返回的是正态分布中x点左端的概率,如果想返回x右端的概率,可以使用pnorm(q, mean, sd, lower.tail = FALSE)用例:pnor

2020-10-23 22:45:18 5227

原创 R语言 基本操作与基础知识

1.赋值 x <- 0.52.产生一等差数列,from首相,to末项,by等差,项数length(length.out)seq(from = 1, to = 1, by = ((to - from)/(length.out - 1))

2020-10-23 22:20:16 1366

原创 数据分析and数据科学必须掌握的分布

1 二项分布 Binomial Distribution特殊情况:0-1分布,又叫两点分布,伯努利实验(二项分布):式中k=0,1,2,…,n,是二项式系数(这就是二项分布名称的由来)。X~B(n,p) 期望E(x)=np,方差D(x)= np(1−p) 【方差也可以写作V(x),Var(X)】2 泊松分布 Poisson Distribution泊松分布成立的条件:二项、独立、等概率E(x) = V(x) = λ特殊地,当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,

2020-10-22 14:51:33 314

原创 协方差Covariance 相关系数correlation coefficient 和 方差-协方差矩阵variance-covariance matrix

一 协方差 Covariance协方差一般刻画两个随机变量的相似程度。方差是协方差的一种特殊情况,即当两个变量是相同的情况。计算公式如下。 取值范围 R域 当协方差Cov(X,Y)>0时,称X与Y正相关 当协方差Cov(X,Y)<0时,称X与Y负相关 当协方差Cov(X,Y)=0时,称X与Y不相关 cov(x,x)=V(x)如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y]。但是,反过来并不成立。即如果

2020-10-18 15:48:28 6572 1

原创 预测问题的评价指标 MSE, RMSE, MAE, MAPE

一、理清基本概念算数平均值(期望)方差与标准差MSE均方误差|------------|–方差–|标准差|| -均方差-|可类比|---------||均方根差|---------|可类比|总的来说,方差是数据序列与均值的关系,而均方误差是数据序列与真实值之间的关系。MAE(平均绝对误差)MAPE(平均绝对相对误差)平均绝对百分比误差(Mean Absolute Percentage Error)[Math Processing Error]范围[0,+∞)

2020-08-22 17:10:12 8760 1

原创 爬虫-豆瓣电影数据提取

import requestsimport reimport jsondef get_one_page(url):headers={‘User-Agent’:’ Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36’}...

2019-08-06 20:52:32 566

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除