自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 收藏
  • 关注

转载 HIve函数汇总

传送门:https://www.cnblogs.com/yejibigdata/p/6380744.htmlHive中collect相关的函数有collect_list和collect_set。它们都是将分组中的某列转为一个数组返回,不同的是collect_list不去重而collect_set去重。json解析函数:get_json_object语法: get_json_object(string json_s

2020-07-09 14:32:16 416

原创 工作

1.工具:阿里云,Hue, Xshell6, gitGUI,DataStudiopython name.pycreate table if not exists name_table();insert overwrite table name_tableps -aux | grep hadoophadoop fs -get /data/other/feature.txt 获取文件到当前位置hadoop fs -put ./test.txt /test 上传文件到指定路径Git简单生成公

2020-06-08 20:55:48 298

原创 LSH(局部敏感度哈希)

一、局部敏感哈希LSH在很多应用领域中,我们面对和需要处理的数据往往是海量并且具有很高的维度,怎样快速地从海量的高维数据集合中找到与某个数据最相似(距离最近)的一个数据或多个数据成为了一个难点和问题。如果是低维的小数据集,我们通过线性查找(Linear Search)就可以容易解决,但如果是对一个海量的高维数据集采用线性查找匹配的话,会非常耗时,因此,为了解决该问题,我们需要采用一些类似索引的技...

2020-04-18 20:13:42 20618 2

转载 分词(转)

TFIDF算法获取关键词“词频”(TF)和"逆文档频率"(IDF),将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。IDF(Inverse D...

2020-04-17 23:13:33 199

转载 LFM(转)

1.说明在推荐系统中有两种协同过滤的方式。一种是基于邻域的方式,这种方式又包含了基于用户的和基于物品的,这种方式实现简单,而且效果也是非常的不错,唯一的缺点是对待稀疏矩阵的时候表现乏力。因此诞生了下面的方式。方式二是基于模型的方式,也就是矩阵分解的方式,这种方式将推荐问题转化为了机器学习问题。为了防止overfitting,添加正则项控制过拟合。_coding:utf-8 _...

2020-04-16 18:06:02 286

转载 word2vec原理(转)

 比如下图我们将词汇表里的词用"Royalty",“Masculinity”, "Femininity"和"Age"4个维度来表示,King这个词对应的词向量可能是(0.99,0.99,0.05,0.7)。当然在实际情况中,我们并不能对词向量的每个维度做一个很好的解释。  2. CBOW与Skip-Gram用于神经网络语言模型   3. word2vec基础之霍夫曼树    word...

2020-04-14 13:39:13 340

转载 Linux命令(转)

Linux常用命令大全(非常全!!!)最近都在和Linux打交道,感觉还不错。我觉得Linux相比windows比较麻烦的就是很多东西都要用命令来控制,当然,这也是很多人喜欢linux的原因,比较短小但却功能强大。我将我了解到的命令列举一下,仅供大家参考:系统信息arch 显示机器的处理器架构uname -m 显示机器的处理器架构uname -r 显示正在使用的内核版本dmidecod...

2020-04-13 14:41:23 177

转载 神经网络总结及面试问题

ANN是指由大量的处理单元(神经元) 互相连接而形成的复杂网络结构,是对人脑组织结构和运行机制的某种抽象、简化和模拟。 [1] 人工神经网络(Artificial Neural Network,简称ANN ),以数学模型模拟神经元活动,是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统。1、反向传播思想:计算出输出与标签间的损失函数值,然后计算其相对于每个神经元的梯度,根据梯度方向更新...

2020-04-07 19:32:06 5209

转载 python os库(转)

os库的使用os 库提供通用的、基本的操作系统交互功能os 库是Python标准库,包含几百个函数,常用的有路径操作、进程管理、环境参数等。路径操作 :os.path子库,处理文件路径及信息进程管理:启动系统中其他程序环境参数:获得系统软硬件信息等环境参数路径操作os.path子库以path为入口,用于操作和处理文件路径import os.path 或 import os.path...

2020-04-07 18:27:30 118

转载 一看就懂的XGBoost原理(转)

https://zhuanlan.zhihu.com/p/839013041. XGBoost简介XGBoost的全称是eXtreme Gradient Boosting,它是经过优化的分布式梯度提升库,旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具,它是目前最快最好的开源 boosting tree工具包,比常见的工具包快10倍以上。在数据科学方面...

2020-03-30 15:34:53 2363

转载 softmax输出的交叉熵损失函数求导推导

地址:https://blog.csdn.net/qian99/article/details/78046329?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-tasksoftmax 函数softmax(柔性最大值)函数,一般在神经网络中, softm...

2020-03-27 16:08:04 241

转载 交叉熵损失函数及其求导过程推导

转载地址:https://blog.csdn.net/jasonzzj/article/details/52017438?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-taskex/(1+ex)=1/(1+e^-x)

2020-03-27 15:25:09 708

原创 win10下anaconda安装pytorch

打开pytorch官网:https://pytorch.org/get-started/locally/需要打开自己的电脑查看电脑cuda版本:在win搜索框里搜索NVIDIA出来NVIDIA控制面板若电脑无显卡,则CUDA 选择None打开Anaconda Prompt,输入官网给的的命令:pip install torch=1.4.0 torchvision=0.5.0 -f ...

2020-03-23 15:47:54 518

转载 机器学习分类与回归模型

一.KNN算法1.既可用于分类也可用于回归2.主要思想是找到预测样本中最近的K个邻居(一般通过欧式距离或者曼哈顿距离公式计算),用K个邻居的目标值中占多数的目标代表预测样本的目标分类:K个邻居投票决定,少数服从多数回归:K个邻居目标的平均值3.所以KNN算法最关键的点就是K值的选取决定了模型的效果,一般可通过K-折交叉验证或者网格搜索法选择一个模型评分最优的K值二、线性回归线性回归的...

2020-03-20 00:41:02 6331

转载 运用joblib保存训练模型与加载模型

在机器学习中我们训练模型后,需要把模型保存到本地,这里我们采用joblib来保存from sklearn.externals import joblib#保存模型def Save_Model(self, model, filepath):joblib.dump(model, filename=filepath)def Decision_Tree_classifier(self,x_tra...

2020-03-17 17:45:45 580

转载 Windows如何通过Anaconda定时调用python脚本

如果你用的是Anaconda环境下的python,先把.ipybn文件转为.py文件在win 搜索框输入: 任务计划程序

2020-03-16 19:27:15 1439

转载 Dataframe优化内存(转)

Pandas】Pandas处理大数据集的方法(内存优化,减少内存使用量90%)将内存使用量减少高达90%的方法当使用具有小数据(小于100兆字节)的pandas时,性能很少成为问题。当我们迁移到更大的数据(100兆字节到几千兆字节)时,性能问题会使运行时间更长,并导致代码因内存不足而完全失败。虽然像Spark这样的工具可以处理大型数据集(100千兆字节到多兆兆字节),但充分利用它们的功能通常...

2020-03-09 17:24:45 1479

转载 用户兴趣模型

1)什么是用户兴趣?指用户在使用某APP时,所表现的行为倾向性,APP会根据用户的一系列行为表现来确实用户的兴趣。2)兴趣模型的分类按时间:长期兴趣,短期兴趣;长期兴趣指不容易随着时间而变化的兴趣,相对稳定;短期兴趣指变化比较频繁的兴趣。按表现:显式的兴趣;隐式的兴趣;显式兴趣指用户能显式并愿意主动显示的兴趣,如用户选择性别倾向,订阅频道;隐式兴趣指用户难以直接表述的,但是潜在的用户会不自...

2019-12-17 08:36:10 903

转载 基于内容的推荐算法

这篇文章我们主要关注的是基于内容的推荐算法,它也是非常通用的一类推荐算法,在工业界有大量的应用案例。本文会从什么是基于内容的推荐算法、算法基本原理、应用场景、基于内容的推荐算法的优缺点、算法落地需要关注的点等5个方面来讲解。希望读者读完可以掌握常用的基于内容的推荐算法的实现原理,并且可以基于本文的思路快速将基于内容的推荐算法落地到真实业务场景中。01 什么是基于内容的推荐算法首先我们给基于...

2019-12-16 11:49:56 627

转载 基于用户协同过滤与基于项目协同过滤的适用场景

一、在适合用途上的比较基于用户的协同过滤算法主要有两步:1)找到和目标用户兴趣相似的用户集合2)找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。基于物品的协同过滤算法主要有两步:1)计算物品之间的相似度。2)根据物品的相似度和用户的历史行为给用户生成推荐列表。Item CF是利用物品间的相似性来推荐的,所以假如用户的数量远远超过物品的数量,那么可以考虑使用Ite...

2019-12-13 18:05:47 2365

转载 多分类模型评价

链接:https://blog.csdn.net/pipisorry/article/details/52574156多分类1.可以把要关注的那一类作为一类,其他所有类作为另一类,转变为二分类问题。2.宏平均(macro-average)和微平均(micro-average)当我们在n个二分类混淆矩阵上要综合考察评价指标的时候就会用到宏平均和微平均。宏平均(macro-average)和微...

2019-11-18 11:20:31 2757 1

转载 分类问题模型评价

链接:https://blog.csdn.net/liweibin1994/article/details/79462554二分类1.混淆矩阵假设,我们有一个任务:给定一些患者的样本,构建一个模型来预测肿瘤是不是恶性的。在这里,肿瘤要么良性,要么恶性,所以这是一个典型的二分类问题。假设我们用y=1表示肿瘤是良性,y=0表示肿瘤是恶性。则我们可以制作如下图的表格:如上图,TP表示预测为良...

2019-11-18 10:55:33 575

转载 机器学习聚类评价指标

链接:https://blog.csdn.net/u010159842/article/details/78624135python中的分群质量主要参考来自官方文档:Clustering部分内容来源于:机器学习评价指标大汇总个人比较偏好的三个指标有:Calinski-Harabaz Index(未知真实index的模型评估)、Homogeneity, completeness and V-...

2019-11-15 16:03:30 1133

转载 回归预测模型的评价指标

本文链接:https://blog.csdn.net/chao2016/article/details/84960257均方误差(Mean Squared Error,MSE)观测值与真值偏差的平方和与观测次数的比值:这就是线性回归中最常用的损失函数,线性回归过程中尽量让该损失函数最小。那么模型之间的对比也可以用它来比较。MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描...

2019-11-15 15:32:59 5642

转载 XGBOOST

链接:https://www.cnblogs.com/zongfa/p/9324684.html机器学习–boosting家族之XGBoost算法一、概念XGBoost全名叫(eXtreme Gradient Boosting)极端梯度提升,经常被用在一些比赛中,其效果显著。它是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包。XGBoost 所...

2019-11-14 17:10:26 174

转载 今日头条的推荐算法原理分析(转)

链接:https://www.jianshu.com/p/b564c19567b7今日头条发布了后台的算法原理,不过用词比较考究、说的比较深奥,让人感觉云里雾里不知何处,本篇尽量用通俗语言进行解析,希望对大家有所帮助。1、【原文】今日头条算法推荐系统,主要输入三个维度的变量。一是内容特征,图文、视频、UGC小视频、问答、微头条等,每种内容有很多自己的特征,需要分别提取;二是用户特征,包括兴趣标...

2019-11-04 11:25:29 1447

转载 CART回归树

本文链接:https://blog.csdn.net/Albert201605/article/details/81865261核心:划分点选择 + 输出值确定。一、概述决策树是一种基本的分类与回归方法,本文叙述的是回归部分。回归决策树主要指CART(classification and regression tree)算法,内部结点特征的取值为“是”和“否”, 为二叉树结构。所谓回归,就...

2019-10-23 10:38:28 1560

转载 常见分类算法优缺点比较

原文链接:https://bbs.pinggu.org/thread-2604496-1-1.html一、决策树(Decision Trees)的优缺点决策树的优点:1、决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。2、对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。3、 能够同时处理数据型和常规型...

2019-10-21 07:48:53 691

转载 plt.scatter()参数详解

matplotlib.pyplot 包下的scatter散点图的详细参数def scatter(x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None,alpha=None, linewidths=None, verts=None, edgecolors=None, hold=None, dat...

2019-09-16 11:51:36 6696

转载 train_test_split参数介绍

在机器学习中,我们通常将原始数据按照比例分割为“测试集”和“训练集”,通常使用sklearn.cross_validation里的train_test_split模块用来分割数据。cross_validation已经弃用,现在改为从 sklearn.model_selection 中调用train_test_split 函数。简单用法如下:X_train,X_test, y_train, y...

2019-09-16 01:13:18 770

转载 卡方检验

卡方检验,统计学的方法,现在机器学习看变量的时候也会用到。很多不知道的人,一听到这个名词,会马上联想到,啊?还要拿张卡来检验吗?其实卡方检验是英文Chi-Square Test 的谐音。在大数据运营场景中,通常用在某个变量(或特征)值是不是和应变量有显著关系。我常听到运营和分析师这样的对话,分析师:“这个变量我做了卡方检验了,不显著,所以我没有放进模型。”这时候,你要是仔细观察运营经理...

2019-09-10 12:28:23 442

转载 关联规则

关联规则挖掘基本概念(续)定义一:设I={i1,i2,…,im}I={i1,i2,…,im},是m个不同的项目的集合,每个ikik称为一个项目。项目的集合I称为项集。其元素的个数称为项集的长度,长度为k的项集称为k-项集。引例中每个商品就是一个项目,项集为I={bread,beer,cake,cream,milk,tea}I={bread,beer,cake,cream,milk,tea},I...

2019-09-10 11:57:03 762

转载 app数据增量更新解决方案

https://wenku.baidu.com/view/fdaeb5a881eb6294dd88d0d233d4b14e84243e69.html

2019-09-09 12:30:04 817

转载 mysql分表操作

当项目上线后,随着用户的增长,有些数据表的规模会以几何级增长,当数据达到一定规模的时候(例如100万条),查询,读取性能就下降得很厉害,这时,我们就要考虑分表。更新表数据时会导致索引更新,当单表数据量很大时这个过程比较耗时,这就是为什么对大表进行新增操作会比较慢的原因,并且更新表数据会进行表级锁或者行锁,这样就导致其他操作等待。所以我们将大表拆分为多个子表,那么在更新或者查询数据的时候,压力会...

2019-09-09 12:08:11 633

原创 k-折交叉验证

人们发现用同一数据集,既进行训练,又进行模型误差估计,对误差估计的很不准确,这就是所说的模型误差估计的乐观性。为了克服这个问题,提出了交叉验证。基本思想是将数据分为两部分,一部分数据用来模型的训练,称为训练集;另外一部分用于测试模型的误差,称为验证集。由于两部分数据不同,估计得到的泛化误差更接近真实的模型表现。数据量足够的情况下,可以很好的估计真实的泛化误差。但是实际中,往往只有有限的数据可用,需...

2019-09-02 18:37:47 730

转载 多分类中宏平均与微平均的区别

宏平均:微平均:宏平均和微平均的对比如果每个class的样本数量差不多,那么宏平均和微平均没有太大差异如果每个class的样本数量差异很大,而且你想:更注重样本量多的class:使用宏平均更注重样本量少的class:使用微平均如果微平均大大低于宏平均,检查样本量多的class如果宏平均大大低于微平均,检查样本量少的class...

2019-09-02 16:39:18 1354 1

转载 多分类问题评价指标

机器学习或者是日常生活中,遇见的往往是二分类问题比较多,二分类模型的模型评价准则很多,Auc_score,F1_score,accuracy等等都是比较常用的。而针对多分类问题来说,有些二分类的评价准则就相对而言不怎么适用了。虽然可以将多分类问题转化为多个2vs2问题进行讨论,步骤繁杂的同时效果也得不到保障。目前在进行多模态的一个分类研究,在模型评价时也废了不少脑筋,所以在这里将看到的比较常用的多...

2019-09-02 15:26:39 13724 1

转载 多分类

多分类指标的情况Softmax二分类和多分类其实没有多少区别。用的公式仍然是y=wx + b。 但有一个非常大的区别是他们用的激活函数是不同的。 逻辑回归用的是sigmoid,这个激活函数的除了给函数增加非线性之外还会把最后的预测值转换成在【0,1】中的数据值。也就是预测值是0<y<1。 我们可以把最后的这个预测值当做是一个预测为正例的概率。在进行模型应用的时候我们会设置一个阈值,...

2019-09-02 15:17:13 2003

原创 ROC,AUC曲线

一、混淆矩阵,ROC曲线 都是针对二分类问题from sklearn.metrics import confusion_matrixcm = confusion_matrix(y_test,y_) # y_test:测试目标值,y_测试预测值plt.matshow(cm, cmap=plt.cm.Greens) #可视化二.Roc :1.predict(x_test) 与 predic...

2019-09-02 14:40:35 194

转载 gridSearchCv参数调优

链接:https://www.cnblogs.com/lrtq/p/9925129.html链接:https://blog.csdn.net/cindy407/article/details/93304059

2019-08-30 18:47:43 2122

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除