谦芊珺-CSDN博客

原创基于对抗学习的生成式对话模型——讲座(三角兽) 量子位沙龙

吴恩达有新出的coursera课程量子位1、两种技术路线基于检索流程：问题：回答：排序短文本相似性、短文本相关性基于生成模型端到端，给定输入，生成结果2、生成式聊天溯源SMT—-NMT—–NRG 统计机器翻译（问答是翻译的一种特殊情况）神经机器翻译 Neural Response Generation3、NRG面临问题安全回复问题效率问题等4、安全回复的产生原

2017-08-09 19:29:41 552

原创 HDFS

http://www.jianshu.com/p/64a92a96fe3chttp://blog.csdn.net/bigdatahappy/article/details/10068881http://www.cnblogs.com/cl1234/p/3566923.html

2017-07-31 01:24:38 433

原创 MySQL（三）

SQL函数分为两种： - Aggregate 函数 - Scalar 函数AggregateAVG() - 返回平均值 COUNT() - 返回行数 FIRST() - 返回第一个记录的值 LAST() - 返回最后一个记录的值 MAX() - 返回最大值 MIN() - 返回最小值 SUM() - 返回总和ScalarUCASE() - 将某个字段转换为大写 LCASE()

2017-07-31 00:39:30 370

原创 MySQL（二）

1、AUTO INCREMENT 字段我们通常希望在每次插入新记录时，自动地创建主键字段的值。我们可以在表中创建一个 auto-increment 字段。2、视图视图是可视化的表。在 SQL 中，视图是基于 SQL 语句的结果集的可视化的表。视图包含行和列，就像一个真实的表。视图中的字段就是来自一个或多个数据库中的真实的表中的字段。您可以向视图添加 SQL 函数、WHERE 以及 J

2017-07-31 00:06:43 359

原创 git sourcetree beyond compare

http://blog.csdn.net/cuin123/article/details/50618963

2017-07-30 23:35:55 331

原创 MySQL学习

1、安装在Linux系统下安装mysql非常简单，按照http://blog.csdn.net/fighter_yy/article/details/40753889 安装即可。2、启动启动后输入mysql -u root -p进行登陆,然后需要输入密码3、常用SQL语言　　SQL语言分为3类，分别是　　- DDL:数据定义语言　　- DML:数据操纵语言　　- DCL:数据控制语言后文

2017-07-29 21:30:12 364

原创设计思维分享

Design thinkingsolve problems in different ways1、d.school 各学科交叉，思维碰撞2、五个步骤 -empathize同理心人、情景、过程如何设计、考虑到人与人的多样性 -define-ideate 头脑风暴，大量想法-prototype 打版-test-回到empathize1、empathize市场研究、用户研究 user／

2017-07-28 12:57:25 354

原创推荐系统

参考：http://www.cnblogs.com/pinard/p/6364932.html 参考：http://blog.csdn.net/u013719780/article/details/517750471、导入数据rawData = sc.textFile("/Users/youwei.tan/ml-100k/u.data")2、拆成字段rawRatings = rawData.ma

2017-07-28 11:21:19 389

原创 MLlib

1、归一化from pyspark.mllib.feature import Normalizernormlizer = Normalizer()vector = sc.parallelize([x])normalized_x_mllib = normlizer.transform(vector).first().toArray()

2017-07-28 10:59:02 455

原创 Spark学习（一）基础数据预处理

本文写在进行spark学习的过程中，学习过程主要参考 http://blog.csdn.net/u013719780/article/details/517687201、导包from pyspark import SparkContext2、提交脚本 spark-submit pythonapp.py3、导入数据user_data = sc.textFile('/路径/ml-100k/u.us

2017-07-28 00:30:47 3708

原创自然语言处理（六）词向量

目的：把文本用数据的形式表达出来方法：传统基于规则，现代基于统计一、词编码方式1——离散表示1、One-hot编码和句子中顺序无关，耗空间耗时2、词袋模型每个数表示该词出现的次数（One-hot的加和）3、TF_IDF 每个数代表该词在整个文档中的占比4、N-gram 相邻N个词作为一组进行编码，缺点是浪费空间、无法衡量词之间的关系二、词编码方式2——分布式表示所谓分布式

2017-07-26 20:44:33 3795 1

原创自然语言处理（五）深度学习

1、tips1、行业基准：用词袋模型表示句子，用SVM或LR做回归，用自己的模型和它做对比 2、分词：启发式或机器学习（HMM，CRF） 3、深度学习是端到端的2、Auto-Encoder可将语料编码化，降维降噪3、CNN机器自动学习卷积滤镜用word2vec将一句话处理成一个矩阵，用CNN案例：文本—>(预处理、TF-IDF、word2vec) —>词向量—>(LR、SVM、LSTM)—>标签

2017-07-26 20:06:06 436

原创自然语言处理（四）统计机器翻译SMT

1、统计机器翻译三要素1、翻译模型 2、语言模型 3、排序模型2、翻译流程1、双语数据预处理 2、词对齐 3、构造短语翻译表 4、对短语翻译表进行概率估计 5、解码，beam search 6、评估

2017-07-26 19:45:15 2338

原创自然语言处理（三）主题模型

为了解决“一词多义”和“多词一意”的问题，引入“主题”LDA本质是一个三层贝叶斯网络1、共轭分布1、Beta分布是二项分布的共轭先验分布 2、Dirichlet分布是多项分布的共轭先验分布Dirichlet分布的参数[α1,α2,....,αn][\alpha_{1},\alpha_{2},....,\alpha_{n}]，一般α\alpha都取一样的值。α=1\alpha=1\quad

2017-07-26 03:06:24 643

原创自然语言处理（二）语言模型

1、词袋模型认为词语间相互独立，失去词语间的顺序信息，相当于把词放在一个袋子里。2、N-gram模型引入了词与词之间的顺序。这个N是一个超参数。 1、一般能用2-gram尽量用2-gram。 2、平时3-gram用的多。 3、n>=4的情况很少，在有特别多语料时可以尝试到5-gram

2017-07-26 02:58:50 417

原创自然语言处理（一）基础

1、字符串常用命令2、正则表达式3、Python的re模块4、jieba分词工具

2017-07-26 02:47:53 353

1、隐马尔可夫HMM模型一个隐马尔可夫模型可以表示为λ={A,B,π}\lambda=\{A,B,\pi\}具体就不说了，比较基本。2、HMM模型的三个基本问题1、概率计算问题：给定λ\lambda和观测序列{xi}\{x_{i}\},求P(xi|λ)P(x_{i}| \lambda)。主要方法是前向计算法或后向计算法2、学习算法问题：对于给定的一个观察值序列，调整参数λ，使得观察值出现的概率p(σ

2017-07-26 02:35:15 935

原创机器学习算法（八）贝叶斯算法族、朴素贝叶斯

一、贝叶斯网络本文介绍贝叶斯网络。贝叶斯网络与前面的大多数算法有一些区别，它归属与贝叶斯学派，属于判别式模型。前面介绍大多数算法归属于频率学派，属于生成式模型。贝叶斯网络可以看成是一个DAG(有向无环图)模型贝叶斯网络的三个知识点 1、网络如图所示：A←C→BA\leftarrow C\rightarrow B则在C给定的条件下，A与B独立。2、网络如图所示：A→C→BA\rightarrow C

2017-07-26 02:15:02 468

原创机器学习算法（七）EM算法族 EM、GMM

一、GMM算法EM算法实在是难以介绍清楚，因此我们用EM算法的一个特例GMM算法作为引入。1、GMM算法问题描述GMM模型称为混合高斯分布，顾名思义，它是由几组分别符合不同参数的高斯分布的数据混合而成的。假设有n个样本点x1,x2,...,xnx_{1},x_{2},...,x_{n},它们来自K个不同的高斯分布。有如下参数：1、不同高斯分布的数据占比：πi\pi_{i} 2、每个高斯分布的均值与

2017-07-26 00:34:50 1751

原创机器学习算法（六）K-Means聚类、层次聚类、密度聚类、谱聚类

本文主要简述聚类算法族。聚类算法与前面文章的算法不同，它们属于非监督学习。1、K-means聚类记k个簇中心，为μ1\mu_{1},μ2\mu_{2},…,μk\mu_{k},每个簇的样本数为NiN_{i} 假设每个簇中的数据都满足分布N(μi,σ)N(\mu_{i},\sigma)，即方差相同，均值不同的GMM。则每一个样本点的分布函数为：ϕi=12πσ2‾‾‾‾‾√exp(−(xi−μ)2

2017-07-25 23:46:30 1754

原创机器学习算法（五）集成

1、集成集成指用多个基学习器共同构成一个更加强大的学习器。集成包含三种方法：Boosting，Bagging，Stacking 1、Boosting:包括GBDT和Adaboost，各学习器间存在强依赖关系，只能串行实现 2、Bagging的代表算法是随机森林，各学习器间不存在强依赖关系，可以并行实现 3、Stacking主要是分层结构。每个初级学习器负责一部分的领域知识并构成次级学习器。

2017-07-25 23:23:43 302

原创机器学习算法（四）决策树

一、信息熵首先给出信息熵的定义如下H(x)=−∑x∈χp(x)lnp(x)H\left( x\right) =-\sum _{x\in \chi }p\left( x\right) \ln p\left( x\right) 1、无约束条件时，均匀分布熵最大 2、若给定分布的期望和方差，则正态分布的熵最大二、决策树是什么决策树就是下图所示的东西三、决策树1、几个名词：1、训练数据集：D 2

2017-07-25 22:23:48 733

原创机器学习算法（三）支持向量机

1、问题介绍本文只涉及二分类支持向量机。支持向量机问题可以分为三种情况来讨论： 1、硬间隔支持向量机：用于可以被一个超平面严格分开的问题中，又称为线性可分支持向量机 2、软间隔支持向量机：用于可以被一个超平面非严格分开的问题中，又称线性支持向量机 3、核支持向量机：用于可以被一个超曲面分开的问题中，又称非线性支持向量机本文主要介绍硬间隔支持向量机。所谓“可以被一个超平面严格分开”，以三维空间数

2017-07-25 20:02:13 472

原创机器学习算法（二）逻辑斯蒂回归

上文中说过，逻辑斯蒂回归虽然称为回归，但它实际上是一种分类算法。认识逻辑斯蒂回归，首先需要知道sigmoid函数。下面公式1即为sigmoid函数g(x)=11+e−xg\left( x\right) =\dfrac {1}{1+e^{-x}}它的函数图像如图所示。 1、算法介绍和上文中的回归算法一样，我们有m条数据，每条数据有n个特征和1个标签。不同的是，上文的标签是一个连续型变量，本文中的标签

2017-07-24 22:37:42 533

原创机器学习算法（一）线性回归

机器学习算法（一）线性回归本文主要梳理一下线性回归和逻辑斯蒂回归这两大算法。这两个算法的关系是什么呢？答案是并没有什么关系。这样说其实也不对，逻辑斯蒂回归里有线性回归的重要组成部分。但是二者又一个本质区别，就是线性回归是一个“回归”算法，而逻辑斯蒂回归是一个“分类”算法。这就导致两个算法永远像牛郎织女一样隔着银河。本文主要介绍线性回归，下篇文章会在本文的基础上介绍逻辑斯蒂回归。本文思路主要来自邹

2017-07-24 20:25:27 577

转载欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-07-24 18:22:57 208

谦芊珺