特征工程
奋斗的小炎
设计推荐算法,接触过自然语言处理,对于人工智能领域的学习永无止境
展开
-
LDA(Dirichlet Distribution)主题模型基本知识与理解(一)
最近在研究无监督模型与降维技术,说起无监督模型,我们首先想到的是聚类技术(Clustering),而在实际生产中,很多方法可以被用来做降维(正则化Lasso/Ridge回归、PCA主成分分析、小波分析、线性判别法、拉普拉斯特征映射等),其中基于主成分分析(PCA)的Topic Model技术包含了pLSA、LDA、SVD分解等。+本文为大家科普一下,作为一名机器学习相关工作者,本人对LDA的基本...原创 2018-05-28 20:50:19 · 4387 阅读 · 0 评论 -
svd与svd++联系与区别
最近一直在做基于SVD推荐方面的工作,主要使用的是Mahout提供的cf.taste.impl.recommender.svd包下的推荐器,这里有一段参考代码,使用的推荐器是SVDRecommender,如下所示:public class SVDRecommenderEx { private static String input = "/Users/harikrishna_gurram/cus...原创 2018-06-14 15:45:23 · 2510 阅读 · 0 评论 -
(转载)推荐系统与隐语义模型LFM概述
转载一篇再推荐系统领域工程实用性很强的文章:http://www.shuang0420.com/2017/02/17/%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F--%E9%9A%90%E8%AF%AD%E4%B9%89%E6%A8%A1%E5%9E%8BLFM/本篇文章主要介绍 隐语义模型 LFM(latent factor model)。隐语义模型最早在文本挖掘领域...转载 2018-06-21 18:37:52 · 814 阅读 · 0 评论 -
Softmax的通俗讲解
0 前言Softmax在机器学习中应用非常广泛,尤其在处理多分类问题,分类器最后的输出单元需要Softmax 函数进行数值处理。但是刚刚接触机器学习的同学可能对Softmax的特点及好处并不理解,当你了解以后会发现,Softmax计算简单,效果显著。我们先来直观看一下,Softmax究竟是什么意思:我们知道max,假如说我有两个数,a和b,并且a>b,如果取max,那么就直接取a,没有第二种...原创 2018-06-21 18:22:24 · 10965 阅读 · 1 评论 -
通俗理解简单的交叉熵损失函数
说起交叉熵损失函数「Cross Entropy Loss」,我们都不陌生,脑海中会马上浮现出它的公式:我们已经对这个交叉熵函数的形式非常熟悉,多数情况下都是直接拿来使用。那么,它是怎么来的?为什么它能表征真实样本标签和预测概率之间的差值?上面的交叉熵函数是否有其它变种?接下来我将尽可能通俗地回答上面这几个问题。(一)交叉熵损失函数的数学原理我们知道,在二分类问题模型,例如逻辑回Logistic R...原创 2018-06-21 13:42:00 · 3643 阅读 · 0 评论 -
(通俗理解)机器学习中 L1 和 L2 正则化的直观解释
机器学习中,如果参数过多,造成模型过于复杂,容易造成过拟合(overfiting),即模型在训练样本数据上表现的很好,但在实际测试样本上表现的较差,即不具有很强的泛化能力。为了避免过拟合,最常用的一种方法是使用正则化,例如 L1 和 L2 正则化,分别对应于回归分析中的Lasso回归和Ridge回归。但是,正则化项如何得来?其背后的数学原理是什么?L1 正则化和 L2 正则化之间有何区别?本人在经...原创 2018-06-21 11:38:29 · 2471 阅读 · 1 评论 -
机器学习中特征选择的方法综述
本文摘自知乎用户文章的第三章节,源出处地址:作者:城东链接:https://www.zhihu.com/question/28641663/answer/110165221来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。当数据预处理完成后,我们需要从所有特征中选择有意义的特征,并将其输入机器学习算法和模型进行训练。通常来说,从以下两个方面考虑来选择特征:(1)特征是否...转载 2018-05-29 20:25:22 · 1690 阅读 · 0 评论 -
(转载)特征工程概述与理解
https://blog.csdn.net/NXHYD/article/details/76787801目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换3 特征选择 3.1 Filter ...转载 2018-05-29 17:36:46 · 331 阅读 · 0 评论 -
机器学习中高维数据降维技术的总结与研究
本文有比较多的转载其他研究人员的博客https://blog.csdn.net/u014772862/article/details/52335970作为一名机器学习的科研人员,之前在推荐系统的开发和工作中,学习了PCA(主成分分析)与SVD(奇异值分解)方面的技术,但是还没有写过总结性的文章,此次,本人总结一些关于降维技术的调研,希望大家多多指教。降维方法一般分为线性降维方法和非线性降维方法,如...转载 2018-05-29 15:09:23 · 10811 阅读 · 1 评论 -
LDA(Dirichlet Distribution)主题模型基本知识与理解(二)
在第一部分博客里已经讲解了LDA的一些基本组成,这篇博文将会讲解LDA在NLP方面的应用。望大家继续支持上一篇博文:https://blog.csdn.net/Little_Fire/article/details/80483566(三)Dirichlet分布在NLP中的应用(关于topic生成word的过程)根据上文中提到了的掷硬币的例子,假设自然语言中存在很多奇怪的coin(religion、...原创 2018-05-28 22:31:51 · 778 阅读 · 0 评论 -
关于pycharm找不到已经安装的module ImportError: No module named问题的解决方案
最近在整理Python和Pycharm相关配置的时候,遇到了一些配置上的问题,这里给大家做一下分享整理。首先,自己安装了一个python3.6(在官网上安装的,当前最新版本是Python 3.7),下载地址如下:https://www.python.org/downloads/windows/然后按照安装向导,一点点安装即可。安装目录选择为:C:\Users\yanyan\AppData\Loca...原创 2018-07-06 15:05:22 · 26823 阅读 · 3 评论