机器学习
文章平均质量分 62
一个聪明的女人
这个作者很懒,什么都没留下…
展开
-
奇异值分解和特征值分解
1)特征值分解: 如果说一个向量v是方阵A的特征向量,将一定可以表示成下面的形式: 这时候λ就被称为特征向量v对应的特征值,一个矩阵的一组特征向量是一组正交向量。特征值分解是将一个矩阵分解成下面的形式: 其中Q是这个矩阵A的特征向量组成的矩阵,Σ是一个对角阵,每一个对角线上的元素就是一个特征值,里面的特征值是由大到小排列的,这些特征值对应的特征向量就是描述这个原创 2016-06-09 15:43:12 · 1088 阅读 · 0 评论 -
LDA
lda原理笔记原创 2016-07-21 14:49:47 · 1476 阅读 · 0 评论 -
深度学习
机器学习的发展经历了:浅层学习和深度学习两个阶段,典型的浅层模型有:高斯混合模型GMMs,SVM、逻辑回归等。 1974,方向传播(back propagation,BP)算法解决了由简单的神经网络模型推广到复杂神经网络模型中线性不可分的问题,但是BP在神经网络的层数增加的时候蚕食优化额效果无法传递到前层,容易使得模型最后陷入局部最优解,也比较容易过拟合。 2006,深度置信网络(deep be原创 2016-08-04 14:01:07 · 1082 阅读 · 0 评论 -
数据预处理
转载请注明出处:http://blog.csdn.net/u012162613/article/details/50629115===========常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;标准化(Standardization or Mean Removal and Variance Scaling)变换后各维特征有0均值,单位方差。也叫z-scor转载 2016-08-04 18:04:45 · 398 阅读 · 0 评论 -
如何计算文档相似性
最近课题需要,整理一下文档相似性的一些研究,主要是参考知乎上面的回答和52nlp的相关文章。以备后期综述使用。具体还需要好好细读链接。主要思路01/one hot representation,BOW+tf-idf+LSI/LDA体系.docsim方法:gensim包,使用corpora.Dictionary(text),把所有单词取一个set(),并对set中每一个单词分配一个id号的map,转载 2016-08-30 19:39:22 · 5254 阅读 · 0 评论 -
自然语言处理-手写笔记
这些笔记是看《数学之美》以及平时文献随便写的。整理成电子版留着。分词、隐马尔科夫模型隐马尔科夫、信息熵互信息、相对熵条件概率、N-gram模型条件随机场、维特比算法图论、网络爬虫、pagerank网页排名有限状态机、余弦定理信息指纹伪随机数产生算法、最大熵原理、GIS通用迭代算法香农第一定理、布隆过滤器、贝叶斯网络期望最大化、逻辑回归模型条件随机场、产生式和判别式模型原创 2016-07-21 10:26:53 · 875 阅读 · 0 评论 -
机器学习概念-手写
机器学习基本概念和numpy scipy的一些笔记。原创 2016-07-21 14:20:38 · 540 阅读 · 0 评论 -
机器学习概念理解
GBDTGradient Boost Decision Tree,Boosting是提升的意思,每一次新的训练都是为了改进上一次的结果。迭代的思想。在Gradient Boosting中,每一次计算都是为了减少上一次的残差,而为了消除残差,我们可以在残差减少的梯度方向上建立新的模型,所以,GBDT中,新的模型建立是为了使得之前模型的残差往梯度方向减少,与传统Boost对正确、错误的样本进行加权有着很原创 2016-07-23 18:25:40 · 955 阅读 · 0 评论 -
keras
大神笔记,转载自http://blog.csdn.net/u012162613/article/details/45397033Keras简介Keras是基于Theano的一个深度学习框架,它的设计参考了Torch,用Python语言编写,是一个高度模块化的神经网络库,支持GPU和CPU。使用文档在这:http://keras.io/,这个框架貌似是刚刚火起来的,使用上的问题可以到github提转载 2016-07-31 00:15:36 · 17522 阅读 · 0 评论 -
LDA
(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下: “乔布斯离我们而去了。” “苹果价格会不会降?” 可以看到上面这两个句子没有共同出现的单词,但这两个句转载 2016-10-12 21:13:52 · 973 阅读 · 0 评论 -
推荐系统
推荐系统评价标准准确度:打分系统,top N推荐 覆盖率:表示对物品长尾的发掘能力 多样性:表示推荐列表中物品两两之间的不相似性 新颖度:给用户suprise 惊喜度:推荐和用户历史兴趣不相似,却满意的 信任度:提供可靠的推荐理由 实时性:实时更新程度基于内容的推荐分析内容,上下文,无需考虑用户行为。为要推荐的内容,建立一份资料,比如词在文件中的权重,常用方法是tf-idf,然后为用户也原创 2016-07-20 21:21:43 · 1504 阅读 · 0 评论 -
word2vec
源代码 https://code.google.com/p/word2vec/思想使用deep learning思想,Google开源的一款将词表征为实数值向量的高效工具,采用的模型由CBOW(continuous bag of words,连续的词袋模型)和Skip-Gram。 通过训练,word2vec可以把文本内容的处理简化为k维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语原创 2016-07-20 19:43:01 · 980 阅读 · 0 评论 -
重要函数
正则化: L1正则化:相当于维度约减,使权重基本为0 截断作用 L2正则化:相当于权重伸缩,使w变小。特征工程使用pandas读取数据,构建dataframe,pd.DatetimeIndex()对时间数据进行处理,分离日期和时间,pd.to_datetime()修改时间格式,pd.DatetimeIndex(data.date).dayofweek取星期几的判断,dataFeatureCon.原创 2016-07-22 11:58:39 · 1234 阅读 · 0 评论 -
机器学习思想
机器学习是一个模型,一个损失函数,一个优化算法。线性回归中,前提假设是y服从正态分布,损失函数是最小二乘法,而在逻辑回归中,y服从二项分布,损失函数是log对数损失函数。损失函数:衡量模型的预测值和真实值之间不一致程度;平方损失-最小二乘法-线性回归:OLS将问题转化为凸优化问题,假设样本和噪声都服从高斯分布,中心极限定理,极大似然估计,最优拟合直线应该是各点到回归直线的距离之和最原创 2016-06-09 17:57:52 · 799 阅读 · 0 评论 -
pandas使用笔记
DataFramedates=pd.date_range('20160728',periods=6) #创建固定频度的时间序列df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD')) #创建6*4的随机数,索引,列名称。df2=pd.DataFrame({'A':pd.Timestamp('20160728'),原创 2016-07-28 18:19:12 · 17090 阅读 · 2 评论 -
Spark机器学习
初始化操作Rdd常见的Rdd转化操作常见的rdd行动操作键值对操作 pair RddMLlib特征提取线性回归逻辑回归支持向量机朴素贝叶斯决策树与随机森林聚类协同过滤与推荐降维奇异值分解模型评估初始化操作spark shell: bin/pyspark 每个spark应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作,驱动器程序包含应用原创 2016-07-18 23:52:43 · 9337 阅读 · 0 评论 -
DSP模型中FM FFM模型
机器学习方法应用在DSP广告投放中,预估CTR/CVR,业界常用的方法是人工特征工程+LR,GBDT,近期FM,FFM模型在其中使用效果非常显著。先解释一波DSP相关专业术语: DSP:Demand-Side platform,需求方平台,在互联网广告产业中,DSP是一个系统,也是一种在线广告平台,服务于广告主,帮助广告主在互联网上进行广告投放。两个核心特征:强大的RTB(Real-Time Bi原创 2016-07-19 15:13:07 · 6550 阅读 · 0 评论 -
逻辑回归
LR逻辑回归是在线性回归的基础上增加Sigmoid函数映射。是业界使用最广泛的分类算法。线性回归线性回归的模型: hθ(x)=g(θTx) h_{\theta}(x) = g(\theta^{T}x) 损失函数: J(θ)=1m∑i=1m12(hθ(x(i))−y(i))2 J(\theta) = \frac{1}{m}\sum_{i=1}^{m}\frac{1}{2}(h_\theta(x^原创 2016-07-19 17:23:19 · 1208 阅读 · 0 评论 -
SVM
SVM 支持向量机,在sklearn里面,有两种,SVC支持向量分类,用于分类问题,SVR,支持向量回归,用于回归问题。核方法用于产生非线性分类边界。 linear,线性核,会产生线性分类边界,一般来说它的计算效率最高,而且需要数据最少。线性函数。from sklearn import svmsvc = svm.SVC(kernel='linear')svc.fit(X, y)poly,多项原创 2016-07-20 13:05:42 · 2457 阅读 · 0 评论 -
CNN卷积神经网络
卷积神经网络CNN,属于深度学习,推荐july算法的一个公开课,https://www.julyedu.com/video/play/18/134 这是看完之后的一份总结。逻辑回归到感知器z=θ0+θ1X1+θ2X2{z = \theta_0+\theta_1X_1+\theta_2X_2}a=g(z)=11+e−za =g(z)=\frac{1}{1+e^-z}神经网络神经网络包括输入层,隐含层原创 2016-07-18 20:39:11 · 2056 阅读 · 0 评论 -
Kmeans和kmeans++
聚类算法分类划分聚类 Partitioning Methods :K-means 层次聚类 Hierachical Methods: Bottum-Up,Top-Down, BIRCH, CURE, CHAMELEON 基于密度的聚类 Density-based Methods: DBSCAN 基于网格的聚类 Grid-based Methods:CLIQUE 基于模型算法 Model-ba原创 2016-07-20 15:33:36 · 8004 阅读 · 0 评论