机器学习
文章平均质量分 91
爱吃西蓝花的老张
这个作者很懒,什么都没留下…
展开
-
item2vector
文章目录什么是item2vector?原理skip-gram :中心词模型基本原理negative sampling :负采样提高计算性能负采样原理代码参考什么是item2vector?来源于微软研究院2016年ICML(论文连接:https://arxiv.org/vc/arxiv/papers/1603/1603.04259v2.pdf)item2vector借鉴了word2vector思想,采用 Skip-gram + Negative Sampling ,用中心词预测周围词思想来生成物品向量。原创 2021-02-08 15:26:28 · 552 阅读 · 0 评论 -
【机器学习】- 决策树
文章目录什么是决策树决策树的原理基本概念生成特征选择信息增益信息增益比生成算法ID3生成算法C4.5生成算法剪枝算法原理算法CART树CART生成算法CART回归树划分单元和划分点CART回归树生成算法CART分类树基尼系数划分单元和划分点CART分类树生成算法其他讨论CART的剪枝算法CART剪枝原理算法连续值、缺失值处理连续值缺失值划分属性选择样本划分多变量决策树*参考*本文的特殊符号什么是决策树决策树是一种基本的分类和回归方法决策树模型是描述对样本进行分类的模型。树又节点和有向边组成:内部原创 2020-10-30 19:04:30 · 403 阅读 · 0 评论 -
tensorflow常见的工业界数据读取方式
1、 tf.data.experimental.make_csv_datasetcolumns = [ 'id', 'click', 'hour', ..... (省略了,是file_path数据文件的列头文件)]def input_fn(file_path): tf.data.make_initializable_iterator dataset = tf.data.experimental.make_csv_dataset(file_path,原创 2020-07-23 22:38:22 · 719 阅读 · 0 评论 -
DCG, NDCG 公式及其实现
DCG, NDCGNormalized Discounted Cumulative Gain(归一化折损累计增益)NDCG用作排序结果的评价指标,评价排序的准确性。推荐系统通常为某用户返回一个item列表,假设列表长度为K,这时可以用NDCG@K评价该排序列表与用户真实交互列表的差距。解释:Gain: 表示列表中每一个item的相关性分数Gain = r(i)Cumulati...转载 2020-05-03 14:14:23 · 5597 阅读 · 0 评论 -
【机器学习】AUC/GAUC计算公式和代码实战
ACU计算公式用到的数据result_v1 预测值文件0 149416:1 1477513:1 2939262:10 166919:1 395399:1 1320293:10 1010289:1 4966769:1 3607361:11 164204:1 4082554:1 1464116:10 201240:1 1386825:1 149192:10 1010603:1 4...原创 2020-04-23 15:17:32 · 3995 阅读 · 1 评论 -
【机器学习】特征工程
写在前面:机器学习是一门很大的学问,一个好的特征工程即便使用简单的模型也能取得很好的效果。以下文章总结于七月在线机器学习第九期课程,侵删。前言特征工程特征 => 数据中抽取出来的对结果预测有用的信息特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。意义- 更好的特征意味着更强的灵活度 - 更好的特征意味着只需用简单模型 - 更好...原创 2020-04-11 17:30:54 · 337 阅读 · 0 评论 -
【机器学习】决策树与树模型集成02-回归树
脑图用决策树完成回归回归树背后的含义回归树构建方法递归二分回归树剪枝原创 2020-03-23 23:43:49 · 219 阅读 · 0 评论 -
【机器学习】决策树与树模型集成01-决策树
脑图从LR到决策树总体流程与核心问题总体流程 : 分而治之 divide-and-conquer自根至叶的递归过程在每个中间节点寻找一个“划分”(split or test)属性三种停止条件:当前节点包含的样本全属于同一类别,无需划分(节点的一票否决权)当前属性集为空,或者所有样本在所有属性上取值相同,无法划分(所有属性都一样,但是最后的结果又不同,无法区分了)当前节...原创 2020-03-23 10:28:09 · 302 阅读 · 0 评论 -
【机器学习】线性回归 LinerRegression
开始整理机器学习知识点。以脑图+代码实例+面试点作为骨架展开脑图代码实例- 手写线性回归以及和sklearn包下的区别引入包,建立plt图片# %load ../../standard_import.txtimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.linea...原创 2020-03-18 16:21:55 · 564 阅读 · 0 评论 -
梯度下降 Gradient Descent 详解、梯度消失和爆炸
1、什么是梯度在微积分中,对多元函数的参数求∂偏导,把求得的各个参数的偏导数以向量形式写出来即为梯度。例如对于函数f(x,y),分别对x,y求偏导,求得的梯度向量就是 (∂f/∂x, ∂f/∂y)^T,简称 grad f(x,y),或者▽f(x,y)。相对于的,在点(x_0,y_0)处的梯度就是 (∂f/∂x_0, ∂f/∂y_0)^T, 或者记做 ▽f(x_0,y_0)。2、梯度的意义...原创 2019-12-26 23:25:47 · 5456 阅读 · 0 评论 -
特征工程-特征归一化
1、场景描述:为了消除数据特征之间的量纲影响,需要对特征进行归一化(Normalization)处理,使得不同特征处于同一个数量级,具有可比性2、常用的归一化方法2.1、线性函数归一化(Min-Max Scaling)对原始数据进行线性变换,使结果映射到 [0,1] 的范围内,实现对原始数据的等比缩放。归一化公式:其中,X为原始数据,min和max分别代表数据的最大最小值2.2、零...原创 2019-03-04 23:17:53 · 1093 阅读 · 0 评论 -
WordEmbedding之Word2Vector
1. 安装 gensimsource activate python362conda install -n python362 gensim2. 实操2.1 基本数据(语料)语料文件可以一行一行 ,也可以使用分词后的空格分割的文本(python362) zjf@zhangjifeideMBP ~/Downloads cat ./tags迷宫养成割草卡通3D恶搞...原创 2019-02-23 15:21:45 · 891 阅读 · 1 评论 -
Mac安装 anaconda及其基本命令
1. anaconda是什么Anaconda是一个用于科学计算的Python发行版,支持 Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda利用工具/命令conda来进行package和environment的管理,并且已经包含了Python和相关的配套工具。这里先解释下conda、a...原创 2018-09-25 21:28:42 · 10983 阅读 · 2 评论