hfzd24-CSDN博客

转载深度学习解决NLP问题：语义相似度计算

在NLP领域，语义相似度的计算一直是个难题：搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义相似度上的应用，希望给读者带来帮助。1. 背景以搜索引擎和搜索广告为例，最重要的也最难解决的问题是语义相似度，这里主要体现在两个方面：召回和排...

2018-03-19 13:41:11 1446

原创 cs229 part1-part3

1、线性回归（Linear Regression）1.1、线性回归模型与解决方案考虑下面的情况，这里给了一个房屋面积和价格的数据表：并画出其数据：这时候我们如何预测其他不同面积的房屋的价格？方案是利用图中的点集拟合出一条合理的曲线（这个问题里拟合一条直线），然后用这条曲线预测新来的房屋的价格。使用线性回归解决的话，h（Hypothesis）假设函数如下: hθ(x)=θ0+θ1x1=∑...

2018-03-14 10:50:39 355

原创无监督学习——kmeans

关键词：聚类，K-means，scikit-learn，python摘要：本文主要介绍聚类、K-means的概念和结果评估，以及使用python进行聚类分析的方法；要点总结了解无监督学习以及聚类概念；K-means的实现过程，肘部法则确定超参数K，利用平均畸变程度和轮廓系数评估聚类效果；基本概念聚类（clust

2017-12-01 10:47:27 2453

转载 Linux下对默认Python版本的切换

当你安装 Debian Linux 时，安装过程有可能同时为你提供多个可用的 Python 版本，因此系统中会存在多个 Python 的可执行二进制文件。一般Ubuntu默认的Python版本都为2.x, 如何改变Python的默认版本呢？下面来一起看看吧。你可以按照以下方法使用 ls 命令来查看你的系统中都有那些 Python 的二进制文件可供使用。?

2017-11-08 09:49:43 10852

原创 Linux常用命令总结

常用指令ls　　显示文件或目录 -l 列出文件详细信息l(list) -a 列出当前目录下所有文件及目录，包括隐藏的a(all)mkdir 创建目录 -p 创建目录，若无父目录，则创建p(parent)cd 切换目录touch

2017-10-23 21:17:46 316

转载动态规划的理解

对于动态规划，每个刚接触的人都需要一段时间来理解，特别是第一次接触的时候总是想不通为什么这种方法可行，这篇文章就是为了帮助大家理解动态规划，并通过讲解基本的01背包问题来引导读者如何去思考动态规划。本文力求通俗易懂，无异性，不让读者感到迷惑，引导读者去思考，所以如果你在阅读中发现有不通顺的地方，让你产生错误理解的地方，让你难得读懂的地方，请跟贴指出，谢谢！ ----第一节

2017-10-16 22:33:09 331

原创 GBDT + LR模型融合

n）[1]，LR是广义线性模型，与传统线性模型相比，LR使用了Logit变换将函数值映射到0~1区间[2]，映射后的函数值就是CTR的预估值。LR这种线性模型很容易并行化，处理上亿条训练样本不是问题，但线性模型学习能力有限，需要大量特征工程预先分析出有效的特征、特征组合，从而去间接增强LR的非线性学习能力。 LR模型中的特征组合很关键，但又无法直接通过特征笛卡尔积解决，只能依靠人工

2017-10-11 14:59:58 2809

原创工程中特征选择

一、为什么做特征选择提升效果，让分类更准确和泛化效果更好。奥卡姆剃刀原理告诉我们“若无必要，勿增实体”。特征的增多会大大增加分类算法求解的搜索空间，大多数训练算法所需样本数量随着不相关特征数量的增加而显著增加。除了识别和去除出不相关的特征和冗余的特征外，一些特征添加后虽然能让模型更好的拟合训练数据，但因为复杂度的增加导致模型有更高的variance误差，过拟合的后果是在测试数据集上效果反而

2017-10-11 13:58:34 424

转载深度增强学习漫谈从DQN到

本篇博客转载自：http://blog.csdn.net/jinzhuojun/article/details/52752561深度增强学习（Deep reinforcement learning, DRL）是DeepMind（后被谷歌收购）近几年来重点研究且发扬光大的机器学习算法框架。两篇Nature上的奠基性论文（DQN和AlphaGo）使得DRL这一深度学习（Deep learning,

2017-10-11 13:33:40 2677

转载理解LSTM'

[译] 理解 LSTM 网络Not_GOD2015.08.28 12:36* 字数 3362 阅读 171335评论 70喜欢 346赞赏 25Neil Zhu，简书ID Not_GOD，University AI 创始人 & Chief Scientist，致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标，带领团队快速成长为人

2017-10-10 20:40:34 862

转载 LSTM原理分析

LSTM理论推导总结目录1. 传统RNN的问题：梯度的消失和爆发2. LSTM对问题的解决方式3. LSTM对模型的设计4. LSTM训练的核心思路和推导5. 近期LSTM的模型的改进6. LSTM的工作特性的研究7. 一些可能存在的问题8. 总结9. 参考文献

2017-10-10 18:59:29 7160 2

转载对比常见机器学习算法之间的区别

机器学习算法太多了，分类、回归、聚类、推荐、图像识别领域等等，要想找到一个合适算法真的不容易，所以在实际应用中，我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法，诸如SVM，GBDT，Adaboost，现在深度学习很火热，神经网络也是一个不错的选择。假如你在乎精度（accuracy）的话，最好的方法就是通过交叉验证（cross-validation）对各个算法一个个地

2017-10-10 10:45:17 1948

原创机器学习中的正则化项的理解

今天我们聊聊机器学习中出现的非常频繁的问题：过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大，为了不吓到大家，我将这个五个部分分成两篇博文。知识有限，以下都是我一些浅显的看法，如果理解存在错误，希望大家不吝指正。谢谢。监督机器学习问题无非就是“minimizeyour error while re

2017-10-09 14:25:19 552

原创阿里云openMR的使用

OPEN MR 基本概念为了帮助用户更加安全、便捷的使用 MaxCompute 的 MR 功能，实现更复杂的计算逻辑。本文档主要讲述 OPEN MR 的开发方法，帮忙用户更好的开发复杂的 MR 模型。OPEN MR 用户只需要关注 Mapper/Reducer 部分的逻辑，作业提交部分逻辑会由平台统一来完成。涉及到一些日常调度涉及到的变量可以在创建 OPEN MR 节点时，在配置中通

2017-08-16 14:11:40 1126

原创 MaxCompute SQL 概要

MaxCompute SQL 适用于海量数据（GB、TB、EB 级别），离线批量计算的场合。MaxCompute 作业提交后会有几十秒到数分钟不等的排队调度，所以适合处理跑批作业，一次作业批量处理海量数据，不适合直接对接需要每秒处理几千至数万笔事务的前台业务系统。MaxCompute SQL 采用的是类似于 SQL 的语法，可以看作是标准 SQL 的子集，但不能因此简单的把 MaxComput

2017-08-14 18:39:30 5116

原创 xgboost中自定义损失函数的使用方法

起初以为在param里定义了就行，但屡屡报错，后来终于找到了方法。首先是metric的写法：def maxRecall(preds,dtrain): #preds是结果（概率值），dtrain是个带label的DMatrix labels=dtrain.get_label() #提取label preds=1-preds precision,recall,thr

2017-08-08 14:10:25 27317 1

原创 xgboost的优点与GBDT对比

说明一下：这部分内容参考了知乎上的一个问答—机器学习算法中GBDT和XGBOOST的区别有哪些？，答主是wepon大神，根据他的总结我自己做了一理解和补充。1.传统GBDT以CART作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。 —可以通过booster [default=gbtree]设置

2017-08-08 11:16:00 6814

转载 c++第三涨复习

3.1 命名空间using声明1.有了using声明就无须专门的前缀（形如命名空间::）也能使用所需的名字了。using声明具有如下的形式：using namespace::name; 一旦声明了上述语句，就可以直接访问命名空间中的名字。3.2 标准库类型string1.标准库类型string表示可变长的字符序列，使用string类型必须首先包含string

2017-07-23 11:00:03 306

转载 keras的使用

1、Keras输出的loss，val这些值如何保存到文本中去：Keras中的fit函数会返回一个History对象，它的History.history属性会把之前的那些值全保存在里面，如果有验证集的话，也包含了验证集的这些指标变化情况，具体写法：hist=model.fit(train_set_x,train_set_y,batch_size=256,shuffle=True,nb_epo

2017-07-19 15:56:05 729

转载 c++primer5第二章

2.1 基本内置类型1.算术类型分为两类：整型（integral type，包括字符和布尔类型在内）和浮点型。布尔类型（bool）的取值是真（true）或者假（false）。2.除去布尔型和扩展的字符型之外，其他整型可以划分为带符号的（signed）和无符号的（unsigned）两种。带符号类型可以表示正数、负数或0，无符号类型则仅能表示大于等于0的值。类型

2017-07-17 20:01:31 231

转载 c++primer5 第一章

1.1 编写一个简单的C++程序1.一个函数的定义包含四部分：返回类型，函数名，形参列表，函数体。2.当return语句包括一个值时，此返回值的类型必须与函数的返回类型相容。3.程序所处理的数据都保存在变量中，而每个变量都有自己的类型。如果一个名为v的变量的类型为T，我们通常说“v具有类型T”，或等价的，“v是一个T类型变量。”1.2 初识输入输出1.标准输

2017-07-17 19:59:09 296

转载 cNN神经网络的理解

神经网络由大量的神经元相互连接而成。每个神经元接受线性组合的输入后，最开始只是简单的线性加权，后来给每个神经元加上了非线性的激活函数，从而进行非线性变换后输出。每两个神经元之间的连接代表加权值，称之为权重（weight）。不同的权重和激活函数，则会导致神经网络不同的输出。举个手写识别的例子，给定一个未知数字，让神经网络识别是什么数字。此时的神经网络的输入由一组被输入图像的像素所激活

2017-07-13 15:56:46 936

转载 kaggle干货

1.Kaggle 基本介绍Kaggle 于 2010 年创立，专注数据科学，机器学习竞赛的举办，是全球最大的数据科学社区和数据竞赛平台。在 Kaggle 上，企业或者研究机构发布商业和科研难题，悬赏吸引全球的数据科学家，通过众包的方式解决建模问题。而参赛者可以接触到丰富的真实数据，解决实际问题，角逐名次，赢取奖金。诸如 Google，Facebook，Microsoft 等知名科技公司均在 K

2017-06-27 19:09:46 3772 1

转载 Kaggle--泰坦尼克之灾

怎么做？手把手教程马上就来，先来两条我看到的，觉得很重要的经验。印象中Andrew Ng老师似乎在coursera上说过，应用机器学习，千万不要一上来就试图做到完美，先撸一个baseline的model出来，再进行后续的分析步骤，一步步提高，所谓后续步骤可能包括『分析model现在的状态(欠/过拟合)，分析我们使用的feature的作用大小，进行feature selection，

2017-06-12 19:45:25 750

hfzd24的博客