machine learning
文章平均质量分 94
青盏
这个作者很懒,什么都没留下…
展开
-
Uplift Modeling
Uplift 经典模型介绍。转载 2024-04-14 14:07:14 · 274 阅读 · 0 评论 -
Sklearn之聚类分析
Sklearn之聚类分析数据科学家需要了解的5种聚类算法转载 2020-07-11 18:59:59 · 449 阅读 · 0 评论 -
数学之美:信息的度量和作用 KL散度 自信息 熵 相对熵 KL divergence entropy
定义自信息: 香农认为,信息可以消除我们对于事物认识上的不确定性,越不可能发生的事情一旦发生就可以消除较大的不确定性,所以应当含有较多的信息。由此,香农认为,应当用事件的发生概率确定该事件所含的信息量,概率越小的事件所含的信息量越大,而必然事件的信息量最小,指定为0。 熵: 想要知道一个分布的信息量,就要先确定一个描述信息量的量纲。 在信息论学科中,提出了熵的概念,记作 H。 一个概率原创 2018-03-01 13:40:51 · 1252 阅读 · 0 评论 -
半监督学习 co-training协同训练 tri-training active-learning主动学习
半监督学习有种思想:如下图,如果一个未标记样本所在空间附近只有一个正样本和一个负样本,不好判断到底该样本是正是负。但如果该样本周围存在一堆正负样本,那么我们可以根据它所处位置的远近来判断其属于置信度更大的类别。 co-training: 协同训练(co-training)算法是多视图(multi-view)学习的代表。首先解释下视图含义:以电影为例,它拥有多个属性集:图像、声音、字幕等。每个属性原创 2018-04-06 22:11:53 · 7344 阅读 · 0 评论 -
矢量量化(Vector Quantization)
来源这学期有《语音信号处理》这门课,快考试了,所以也要了解了解相关的知识点。呵呵,平时没怎么听课,现在只能抱佛脚了。顺便也总结总结,好让自己的知识架构清晰点,也和大家分享下。下面总结的是第三个知识点:VQ。因为花的时间不多,所以可能会有不少说的不妥的地方,还望大家指正。谢谢。 矢量量化(VQ,Vector Quantization)是一种极其重要的信号压缩方法转载 2018-04-18 15:30:45 · 11728 阅读 · 4 评论 -
机器学习模型梯度推导
线性回归 逻辑回归 Softmax回归 感知机 多分类,感知机: 人工神经网络原创 2018-06-09 23:16:03 · 1115 阅读 · 0 评论 -
Kesci“魔镜杯”风控算法大赛复赛解决方案
来自 决赛答辩第4,获得铜奖代码地址:https://github.com/wepe/PPD_RiskControlCompetition转载 2018-06-27 15:34:15 · 636 阅读 · 0 评论 -
最近邻和K近邻及其优化算法LSH(局部敏感哈希,Locality Sensitive Hashing) Kd-Tree
引言在处理大量高维数据时,如何快速地找到最相似的数据是一个比较难的问题。如果是低维的小量数据,线性查找(Linear Search)就可以解决,但面对海量的高维数据集如果采用线性查找将会非常耗时。因此,为了解决该问题通常采用些优化算法。称之为近似最近邻查找(Approximate Nearest Neighbor),例如kd-tree with best bin first,locality...原创 2018-07-03 12:48:15 · 2842 阅读 · 0 评论 -
机器学习中的小数学知识
如何通俗易懂地解释「协方差」与「相关系数」的概念转载 2018-07-16 20:24:09 · 507 阅读 · 1 评论 -
朴素贝叶斯模型 多元伯努利事件模型+多项式事件模型 Multi-Variate Bernoulli Event Model and Multinomial Event Model
朴素贝叶斯模型(Naïve Bayes Models): 适用于离散分布的朴素贝叶斯模型是个概率模型、生成式模型、广泛用于文本分类,自然语言处理和模式识别。 生成式和判别式模型区别: 贝叶斯公式如下: 由于同一个训练集p(x) p(y)相等,则可转成以下公式: 朴素贝叶斯模型有两种事件模型,分别:多元伯努利事件模型+多项式事件模型,Multi-Variate Bernou...原创 2018-07-17 11:23:23 · 4209 阅读 · 3 评论 -
sklearn.model_selection.ParameterSampler 使用给定分布生成参数,进行参数搜索
from sklearn.model_selection import ParameterSampler#定义分布:class UniformDistribution(object): def __init__(self, low, high): assert low <= high self.low = low self.high...原创 2018-07-29 16:08:17 · 672 阅读 · 0 评论 -
并行逻辑回归LR 机器学习并行算法理解
算法中很多部分的细粒度模块都是等同的,也就是模式一样,但数值不一样,而且接下来的操作一般都是求和。那么我们就可以把它们划分到不同节点进行计算,然后合并到一起实现并行化。在充分理解整个算法流程情况下就能够实现并行计算。在模型层面一般有:交叉验证每个模型可以独立训练;网格搜索超参每个模型也可以单独训练;还有Bagging类算法。更细粒度的层面:一般需要理解算法流程,如Xgboost中将特征提前...转载 2019-03-09 15:51:12 · 1200 阅读 · 2 评论 -
numpy 中的Axis(轴)含义 np.newaxis numpy.expand_dims
以下举例: np.array([1, 2, 3]) 当你看以上数组时,从1到2,到3。这就是所谓的axis=0轴 np.array([ [1, 2], [3, 4], [4, 5] ]) 再用相同的方法,看上面数组,首先是从[1, 2]到 [3, 4]到[4, 5]。这就是从0轴视角看的数据,当我们选择0轴所在的第一个元素[1, 2]时,我们看到的是从1到2。这就是从1轴看到的数据。...原创 2018-02-26 19:31:13 · 2616 阅读 · 1 评论 -
Python Numpy数据分析中常用方法
一、多维的表示Numpy用列表表示多维矩阵: 第一维,维数大小为4: % = [ &amp;amp;amp;amp;amp;amp;amp; &amp;amp;amp;amp;amp;amp;amp; &amp;amp;amp;amp;amp;amp;amp; &amp;amp;amp;amp;amp;amp;amp;] //&amp;amp;amp;amp;amp;amp;amp;为标量,%表示一个维数大小原创 2017-03-14 11:30:48 · 4267 阅读 · 0 评论 -
pandas 中的Axis(轴)含义
根据stackoverflow答主解释,axis=0指的是逐行,axis=1指的是逐列。df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], \columns=["col1", "col2", "col3", "col4"])print(df.mean(axis=0))print(df.mean(axis=1)...原创 2017-07-27 23:52:22 · 11576 阅读 · 2 评论 -
numpy的random随机值模块详解
来源于rand(d0, d1, ..., dn)随机值>>> np.random.rand(3,2)array([[ 0.14022471, 0.96360618], #random [ 0.37601032, 0.25528411], #random [ 0.49313049, 0.94909878]])转载 2017-03-28 22:20:28 · 2600 阅读 · 0 评论 -
Python Numpy data-type dtype 自定义数据类型
一、实例BIG-ENDIAN和LITTLE_ENDIAN区别 数据类型定义:>>> dt = np.dtype('>i4') 定义一个big-endian int 4*8=32位的数据类型>>> dtdtype('>i4')>>> dt.byteorder //字节顺序:>为big-edian &l...原创 2017-03-25 11:00:43 · 50099 阅读 · 3 评论 -
机器学习 训练方法选择指导图 备忘单
官网 进入后单击可查看方法具体信息。 sklearn官网图原创 2017-07-31 16:46:12 · 360 阅读 · 0 评论 -
机器学习 数据特征分析 特征工程
来源于jasonfreak做个存档目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 F转载 2017-04-06 19:29:06 · 16451 阅读 · 1 评论 -
Python seaborn matplotlib 对数据进行图表分析
matplotlib官网 基于matplotlib的seaborn官网import seaborn as snsimport matplotlib.pyplot as pltimport seaborn as sns sns.set_style(&amp;amp;amp;quot;whitegrid&amp;amp;amp;quot;) # 设置主题,可选项有darkgrid , whitegrid , dark , white ,和 t...原创 2017-07-27 20:34:44 · 10947 阅读 · 0 评论 -
Python pandas快速入门
来自官网十分钟教学 Pandas的主要数据结构: Dimensions Name Description 1 Series 1D labeled homogeneously-typed array 2 DataFrame General 2D labeled, size-mutable tabular structure with potentially hete原创 2017-03-14 17:17:52 · 23771 阅读 · 0 评论 -
Python sklearn数据分析中常用方法
一、数据处理随机划分训练集和测试集:from sklearn.model_selection import train_test_splitX_all = data_train.drop(['Survived', 'PassengerId'], axis=1) #只包含特征集,不包含预测目标y_all = data_train['Survived'] #只包含预测目标num_...原创 2017-08-01 15:50:15 · 11040 阅读 · 0 评论 -
Pandas groupby apply agg 区别 运行自定义函数
agg 方法将一个函数使用在一个数列上,然后返回一个标量的值。也就是说agg每次传入的是一列数据,对其聚合后返回标量。 对一列使用三个函数: 对不同列使用不同函数 apply 是一个更一般化的方法:将一个数据分拆-应用-汇总。而apply会将当前分组后的数据一起传入,可以返回多维数据。 图片来自 实例: 1、数据如下:lawsuit2[['EID','LAWAMOUNT','原创 2017-10-15 23:09:14 · 40038 阅读 · 3 评论 -
Python pandas数据分析中常用方法
官方教程读取写入文件官方IO 读取 写入 read_csv to_csv read_excel to_excel read_hdf to_hdf read_sql to_sql read_json to_json read_msgpack (experimenta...原创 2017-03-20 23:33:48 · 106356 阅读 · 1 评论 -
WIndow的Anaconda下安装Xgboost
基于Python 3+ anaconda集成了很多关于python科学计算的第三方库一、下载文件使用该链接下载whl文件,注意对于版本二、使用PIP安装pip install xgboost‑0.6‑cp36‑cp36m‑win_amd64.whl(文件名)三、其他方法自己编译安装方法 python 2/3都行,如果Python2.7版编译的Xgboost下载不下来,可以通过下面链接 X原创 2017-03-20 15:11:56 · 568 阅读 · 0 评论