自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 基于对抗学习的生成式对话模型——讲座(三角兽) 量子位沙龙

吴恩达 有新出的coursera课程 量子位1、两种技术路线基于检索 流程:问题:回答:排序 短文本相似性、短文本相关性基于生成模型 端到端,给定输入,生成结果2、生成式聊天溯源SMT—-NMT—–NRG 统计机器翻译(问答是翻译的一种特殊情况) 神经机器翻译 Neural Response Generation3、NRG面临问题安全回复问题 效率问题等4、安全回复的产生原

2017-08-09 19:29:41 552

原创 HDFS

http://www.jianshu.com/p/64a92a96fe3chttp://blog.csdn.net/bigdatahappy/article/details/10068881http://www.cnblogs.com/cl1234/p/3566923.html

2017-07-31 01:24:38 433

原创 MySQL(三)

SQL函数分为两种: - Aggregate 函数 - Scalar 函数AggregateAVG() - 返回平均值 COUNT() - 返回行数 FIRST() - 返回第一个记录的值 LAST() - 返回最后一个记录的值 MAX() - 返回最大值 MIN() - 返回最小值 SUM() - 返回总和ScalarUCASE() - 将某个字段转换为大写 LCASE()

2017-07-31 00:39:30 370

原创 MySQL(二)

1、AUTO INCREMENT 字段我们通常希望在每次插入新记录时,自动地创建主键字段的值。 我们可以在表中创建一个 auto-increment 字段。2、视图视图是可视化的表。 在 SQL 中,视图是基于 SQL 语句的结果集的可视化的表。 视图包含行和列,就像一个真实的表。视图中的字段就是来自一个或多个数据库中的真实的表中的字段。 您可以向视图添加 SQL 函数、WHERE 以及 J

2017-07-31 00:06:43 359

原创 git sourcetree beyond compare

http://blog.csdn.net/cuin123/article/details/50618963

2017-07-30 23:35:55 331

原创 MySQL学习

1、安装在Linux系统下安装mysql非常简单,按照http://blog.csdn.net/fighter_yy/article/details/40753889 安装即可。2、启动启动后输入mysql -u root -p进行登陆,然后需要输入密码3、常用SQL语言  SQL语言分为3类,分别是  - DDL:数据定义语言   - DML:数据操纵语言   - DCL:数据控制语言 后文

2017-07-29 21:30:12 364

原创 设计思维分享

Design thinkingsolve problems in different ways1、d.school 各学科交叉,思维碰撞2、五个步骤 -empathize同理心 人、情景、过程 如何设计、考虑到人与人的多样性 -define-ideate 头脑风暴,大量想法-prototype 打版-test-回到empathize1、empathize市场研究、用户研究 user/

2017-07-28 12:57:25 354

原创 推荐系统

参考:http://www.cnblogs.com/pinard/p/6364932.html 参考:http://blog.csdn.net/u013719780/article/details/517750471、导入数据rawData = sc.textFile("/Users/youwei.tan/ml-100k/u.data")2、拆成字段rawRatings = rawData.ma

2017-07-28 11:21:19 389

原创 MLlib

1、归一化from pyspark.mllib.feature import Normalizernormlizer = Normalizer()vector = sc.parallelize([x])normalized_x_mllib = normlizer.transform(vector).first().toArray()

2017-07-28 10:59:02 455

原创 特征提取

特征类型:数值型、类型型、文本型

2017-07-28 10:54:25 551

原创 Spark学习(一)基础数据预处理

本文写在进行spark学习的过程中,学习过程主要参考 http://blog.csdn.net/u013719780/article/details/517687201、导包from pyspark import SparkContext2、提交脚本 spark-submit pythonapp.py3、导入数据user_data = sc.textFile('/路径/ml-100k/u.us

2017-07-28 00:30:47 3708

原创 自然语言处理(六)词向量

目的:把文本用数据的形式表达出来 方法:传统基于规则,现代基于统计一、词编码方式1——离散表示1、One-hot编码 和句子中顺序无关,耗空间耗时2、词袋模型 每个数表示该词出现的次数(One-hot的加和)3、TF_IDF 每个数代表该词在整个文档中的占比4、N-gram 相邻N个词作为一组进行编码,缺点是浪费空间、无法衡量词之间的关系二、词编码方式2——分布式表示所谓分布式

2017-07-26 20:44:33 3795 1

原创 自然语言处理(五)深度学习

1、tips1、行业基准:用词袋模型表示句子,用SVM或LR做回归,用自己的模型和它做对比 2、分词:启发式或机器学习(HMM,CRF) 3、深度学习是端到端的2、Auto-Encoder可将语料编码化,降维降噪3、CNN机器自动学习卷积滤镜用word2vec将一句话处理成一个矩阵,用CNN案例:文本—>(预处理、TF-IDF、word2vec) —>词向量—>(LR、SVM、LSTM)—>标签

2017-07-26 20:06:06 436

原创 自然语言处理(四)统计机器翻译SMT

1、统计机器翻译三要素1、翻译模型 2、语言模型 3、排序模型2、翻译流程1、双语数据预处理 2、词对齐 3、构造短语翻译表 4、对短语翻译表进行概率估计 5、解码,beam search 6、评估

2017-07-26 19:45:15 2338

原创 自然语言处理(三)主题模型

为了解决“一词多义”和“多词一意”的问题,引入“主题”LDA本质是一个三层贝叶斯网络1、共轭分布1、Beta分布是二项分布的共轭先验分布 2、Dirichlet分布是多项分布的共轭先验分布Dirichlet分布的参数[α1,α2,....,αn][\alpha_{1},\alpha_{2},....,\alpha_{n}],一般α\alpha都取一样的值。α=1\alpha=1\quad

2017-07-26 03:06:24 643

原创 自然语言处理(二)语言模型

1、词袋模型认为词语间相互独立,失去词语间的顺序信息,相当于把词放在一个袋子里。2、N-gram模型引入了词与词之间的顺序。这个N是一个超参数。 1、一般能用2-gram尽量用2-gram。 2、平时3-gram用的多。 3、n>=4的情况很少,在有特别多语料时可以尝试到5-gram

2017-07-26 02:58:50 417

原创 自然语言处理(一)基础

1、字符串常用命令2、正则表达式3、Python的re模块4、jieba分词工具

2017-07-26 02:47:53 353

原创 机器学习算法(九)EM和贝叶斯网络的结合 HMM模型

1、隐马尔可夫HMM模型一个隐马尔可夫模型可以表示为λ={A,B,π}\lambda=\{A,B,\pi\}具体就不说了,比较基本。2、HMM模型的三个基本问题1、概率计算问题:给定λ\lambda和观测序列{xi}\{x_{i}\},求P(xi|λ)P(x_{i}| \lambda)。主要方法是前向计算法或后向计算法2、学习算法问题:对于给定的一个观察值序列,调整参数λ,使得观察值出现的概率p(σ

2017-07-26 02:35:15 935

原创 机器学习算法(八)贝叶斯算法族、朴素贝叶斯

一、贝叶斯网络本文介绍贝叶斯网络。贝叶斯网络与前面的大多数算法有一些区别,它归属与贝叶斯学派,属于判别式模型。前面介绍大多数算法归属于频率学派,属于生成式模型。贝叶斯网络可以看成是一个DAG(有向无环图)模型贝叶斯网络的三个知识点 1、网络如图所示:A←C→BA\leftarrow C\rightarrow B则在C给定的条件下,A与B独立。2、网络如图所示:A→C→BA\rightarrow C

2017-07-26 02:15:02 468

原创 机器学习算法(七)EM算法族 EM、GMM

一、GMM算法EM算法实在是难以介绍清楚,因此我们用EM算法的一个特例GMM算法作为引入。1、GMM算法问题描述GMM模型称为混合高斯分布,顾名思义,它是由几组分别符合不同参数的高斯分布的数据混合而成的。假设有n个样本点x1,x2,...,xnx_{1},x_{2},...,x_{n},它们来自K个不同的高斯分布。有如下参数:1、不同高斯分布的数据占比:πi\pi_{i} 2、每个高斯分布的均值与

2017-07-26 00:34:50 1751

原创 机器学习算法(六)K-Means聚类、层次聚类、密度聚类、谱聚类

本文主要简述聚类算法族。聚类算法与前面文章的算法不同,它们属于非监督学习。1、K-means聚类记k个簇中心,为μ1\mu_{1},μ2\mu_{2},…,μk\mu_{k},每个簇的样本数为NiN_{i} 假设每个簇中的数据都满足分布N(μi,σ)N(\mu_{i},\sigma),即方差相同,均值不同的GMM。 则每一个样本点的分布函数为:ϕi=12πσ2‾‾‾‾‾√exp(−(xi−μ)2

2017-07-25 23:46:30 1754

原创 机器学习算法(五)集成

1、集成集成指用多个基学习器共同构成一个更加强大的学习器。 集成包含三种方法:Boosting,Bagging,Stacking 1、Boosting:包括GBDT和Adaboost,各学习器间存在强依赖关系,只能串行实现 2、Bagging的代表算法是随机森林,各学习器间不存在强依赖关系,可以并行实现 3、Stacking主要是分层结构。每个初级学习器负责一部分的领域知识并构成次级学习器。

2017-07-25 23:23:43 302

原创 机器学习算法(四)决策树

一、信息熵首先给出信息熵的定义如下H(x)=−∑x∈χp(x)lnp(x)H\left( x\right) =-\sum _{x\in \chi }p\left( x\right) \ln p\left( x\right) 1、无约束条件时,均匀分布熵最大 2、若给定分布的期望和方差,则正态分布的熵最大二、决策树是什么决策树就是下图所示的东西 三、决策树1、几个名词:1、训练数据集:D 2

2017-07-25 22:23:48 733

原创 机器学习算法(三)支持向量机

1、问题介绍本文只涉及二分类支持向量机。支持向量机问题可以分为三种情况来讨论: 1、硬间隔支持向量机:用于可以被一个超平面严格分开的问题中,又称为线性可分支持向量机 2、软间隔支持向量机:用于可以被一个超平面非严格分开的问题中,又称线性支持向量机 3、核支持向量机:用于可以被一个超曲面分开的问题中,又称非线性支持向量机本文主要介绍硬间隔支持向量机。所谓“可以被一个超平面严格分开”,以三维空间数

2017-07-25 20:02:13 472

原创 机器学习算法(二)逻辑斯蒂回归

上文中说过,逻辑斯蒂回归虽然称为回归,但它实际上是一种分类算法。认识逻辑斯蒂回归,首先需要知道sigmoid函数。下面公式1即为sigmoid函数g(x)=11+e−xg\left( x\right) =\dfrac {1}{1+e^{-x}}它的函数图像如图所示。 1、算法介绍和上文中的回归算法一样,我们有m条数据,每条数据有n个特征和1个标签。不同的是,上文的标签是一个连续型变量,本文中的标签

2017-07-24 22:37:42 533

原创 机器学习算法(一)线性回归

机器学习算法(一)线性回归本文主要梳理一下线性回归和逻辑斯蒂回归这两大算法。这两个算法的关系是什么呢?答案是并没有什么关系。 这样说其实也不对,逻辑斯蒂回归里有线性回归的重要组成部分。但是二者又一个本质区别,就是线性回归是一个“回归”算法,而逻辑斯蒂回归是一个“分类”算法。这就导致两个算法永远像牛郎织女一样隔着银河。本文主要介绍线性回归,下篇文章会在本文的基础上介绍逻辑斯蒂回归。本文思路主要来自邹

2017-07-24 20:25:27 577

转载 欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-07-24 18:22:57 208

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除