自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

转载 自然语言处理(六)词向量

目的:把文本用数据的形式表达出来 方法:传统基于规则,现代基于统计 一、词编码方式1——离散表示 1、One-hot编码 和句子中顺序无关,耗空间耗时 2、词袋模型 每个数表示该词出现的次数(One-hot的加和) 3、TF_IDF 每个数代表该词在整个文档中的占比 4、N-gram 相邻N个词作为一组进行编码,缺点是浪费空间、无法衡量词之间的关系 二、词编码方式2——分布式表示 所谓分...

2017-07-26 22:30:00 145

转载 自然语言处理(五)深度学习

1、tips 1、行业基准:用词袋模型表示句子,用SVM或LR做回归,用自己的模型和它做对比 2、分词:启发式或机器学习(HMM,CRF) 3、深度学习是端到端的 2、Auto-Encoder 可将语料编码化,降维降噪 3、CNN 机器自动学习卷积滤镜 用word2vec将一句话处理成一个矩阵,用CNN 案例:文本—>(预处理、TF-IDF、word2vec) —>词向量—&...

2017-07-26 22:29:00 109

转载 自然语言处理(三)主题模型

为了解决“一词多义”和“多词一意”的问题,引入“主题” LDA本质是一个三层贝叶斯网络 1、共轭分布 1、Beta分布是二项分布的共轭先验分布 2、Dirichlet分布是多项分布的共轭先验分布 Dirichlet分布的参数\([\alpha_{1},\alpha_{2},....,\alpha_{n}]\),一般\(\alpha\)都取一样的值。 \(\alpha=1\quad\) 均...

2017-07-26 22:28:00 158

转载 自然语言处理(四)统计机器翻译SMT

1、统计机器翻译三要素 1、翻译模型 2、语言模型 3、排序模型 2、翻译流程 1、双语数据预处理 2、词对齐 3、构造短语翻译表 4、对短语翻译表进行概率估计 5、解码,beam search 6、评估 转载于:https://www.cnblogs.com/Yolanda7171/p/7242374.html...

2017-07-26 22:28:00 775

转载 自然语言处理(二) 语言模型

1、词袋模型 认为词语间相互独立,失去词语间的顺序信息,相当于把词放在一个袋子里。 2、N-gram模型 引入了词与词之间的顺序。 这个N是一个超参数。 1、一般能用2-gram尽量用2-gram。 2、平时3-gram用的多。 3、n>=4的情况很少,在有特别多语料时可以尝试到5-gram 转载于:https://www.cnblogs.com/Yolanda7171/p/7...

2017-07-26 22:27:00 89

转载 自然语言处理(一)基础知识

1、字符串常用命令 2、正则表达式 3、Python的re模块 4、jieba分词工具 转载于:https://www.cnblogs.com/Yolanda7171/p/7242365.html

2017-07-26 22:26:00 147

转载 机器学习(九)隐马尔可夫模型HMM

1、隐马尔可夫HMM模型 一个隐马尔可夫模型可以表示为\[\lambda=\{A,B,\pi\}\]具体就不说了,比较基本。 2、HMM模型的三个基本问题 1、概率计算问题:给定\(\lambda\)和观测序列\(\{x_{i}\}\),求\(P(x_{i}| \lambda)\)。主要方法是前向计算法或后向计算法 2、学习算法问题:对于给定的一个观察值序列,调整参数λ,使得观察值出现的...

2017-07-26 22:25:00 102

转载 机器学习(八)贝叶斯网络、朴素贝叶斯

一、贝叶斯网络 本文介绍贝叶斯网络。贝叶斯网络与前面的大多数算法有一些区别,它归属与贝叶斯学派,属于判别式模型。前面介绍大多数算法归属于频率学派,属于生成式模型。 贝叶斯网络可以看成是一个DAG(有向无环图)模型 贝叶斯网络的三个知识点 1、网络如图所示:\[A\leftarrow C\rightarrow B\]则在C给定的条件下,A与B独立。 2、网络如图所示:\[A\rightar...

2017-07-26 22:24:00 194

转载 机器学习(六)K-means聚类、密度聚类、层次聚类、谱聚类

本文主要简述聚类算法族。聚类算法与前面文章的算法不同,它们属于非监督学习。 1、K-means聚类 记k个簇中心,为\(\mu_{1}\),\(\mu_{2}\),...,\(\mu_{k}\),每个簇的样本数为\(N_{i}\) 假设每个簇中的数据都满足分布\(N(\mu_{i},\sigma)\),即方差相同,均值不同的GMM。 则每一个样本点的分布函数为:\[\phi_{i}=\d...

2017-07-26 22:23:00 690

转载 机器学习(七)EM算法、GMM

一、GMM算法 EM算法实在是难以介绍清楚,因此我们用EM算法的一个特例GMM算法作为引入。 1、GMM算法问题描述 GMM模型称为混合高斯分布,顾名思义,它是由几组分别符合不同参数的高斯分布的数据混合而成的。 假设有n个样本点\(x_{1},x_{2},...,x_{n}\),它们来自K个不同的高斯分布。有如下参数: 1、不同高斯分布的数据占比:\(\pi_{i}\) 2、每个高斯分布...

2017-07-26 22:23:00 155

转载 机器学习(五)集成

1、集成 集成指用多个基学习器共同构成一个更加强大的学习器。 集成包含三种方法:Boosting,Bagging,Stacking 1、Boosting:包括GBDT和Adaboost,各学习器间存在强依赖关系,只能串行实现 2、Bagging的代表算法是随机森林,各学习器间不存在强依赖关系,可以并行实现 3、Stacking主要是分层结构。每个初级学习器负责一部分的领域知识并构成次级学...

2017-07-26 22:22:00 63

转载 机器学习(四)决策树

一、信息熵 首先给出信息熵的定义如下\[H\left( x\right) =-\sum _{x\in \chi }p\left( x\right) \ln p\left( x\right) \] 1、无约束条件时,均匀分布熵最大 2、若给定分布的期望和方差,则正态分布的熵最大 二、决策树是什么 决策树就是下图所示的东西 三、决策树 1、几个名词: 1、训练数据集:D 2、数据的标签有K...

2017-07-26 22:20:00 86

转载 机器学习(三)支持向量机

1、问题介绍 本文只涉及二分类支持向量机。 支持向量机问题可以分为三种情况来讨论: 1、硬间隔支持向量机:用于可以被一个超平面严格分开的问题中,又称为线性可分支持向量机 2、软间隔支持向量机:用于可以被一个超平面非严格分开的问题中,又称线性支持向量机 3、核支持向量机:用于可以被一个超曲面分开的问题中,又称非线性支持向量机 本文主要介绍硬间隔支持向量机。 所谓“可以被一个超平面严格分开”...

2017-07-26 22:18:00 280

转载 机器学习(二)逻辑斯蒂回归

上文中说过,逻辑斯蒂回归虽然称为回归,但它实际上是一种分类算法。认识逻辑斯蒂回归,首先需要知道sigmoid函数。下面公式1即为sigmoid函数\[g\left( x\right) =\dfrac {1}{1+e^{-x}}\]它的函数图像如图所示。 1、算法介绍 和上文中的回归算法一样,我们有m条数据,每条数据有n个特征和1个标签。不同的是,上文的标签是一个连续型变量,本文中的标签...

2017-07-26 22:17:00 89

转载 机器学习(一)线性回归

机器学习算法(一)线性回归 本文主要梳理一下线性回归和逻辑斯蒂回归这两大算法。这两个算法的关系是什么呢?答案是并没有什么关系。 这样说其实也不对,逻辑斯蒂回归里有线性回归的重要组成部分。但是二者又一个本质区别,就是线性回归是一个“回归”算法,而逻辑斯蒂回归是一个“分类”算法。这就导致两个算法永远像牛郎织女一样隔着银河。本文主要介绍线性回归,下篇文章会在本文的基础上介绍逻辑斯蒂回归。本文思...

2017-07-26 22:10:00 139

转载 支持向量机简述

支持向量机是一种二分类模型,它的基本思想就是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开。但是,能将训练样本分开的划分超平面可能有很多,因此,我们应该致力于找位于两类训练样本“正中间”的划分超平面,因为这样的划分超平面对训练样本局部扰动的容忍性最好。支持向量机学习算法主要有三种,有:线性可分支持向量机,线性支持向量机和非线性支持向量机。当训练数据线性可分时,通...

2016-08-20 12:54:00 292

转载 决策树简述

决策树是机器学习中一类非常常见的算法,它是一种分类与回归算法,但以分类为主。它的决策思维非常符合人类正常的决策方式。举一个简单的例子, 比如我们要挑选一个书包,我们就需要做出以下决策:我需要一个男包还是女包?女包。我需要一个双肩背包还是斜挎包?双肩包。我需要一个大包还是小包?小包。我需要一个白色的包还是黑色的包?白色。以上几个选择做完,我就可以将具有{女包、双肩包、小包、白色}这一属性组...

2016-08-20 12:46:00 170

转载 机器学习算法综述

近些年来,随着大数据、云计算、移动互联网、人工智能技术的兴起,“机器学习”成为了行业内炙手可热的一个名词。从通信互联网领域的专家,到各式各样的企业,甚至到普通的老百姓,都对“机器学习”技术略知一二。那么,机器学习到底是什么,它与我们常见的“人工智能”、“神经网络”、“数据挖掘“等相似概念都有什么关系?机器学习有那些基本分支、基本方法?在本文中,我们将用最简单易懂的语言解释这些问题。 问...

2016-08-20 12:13:00 249

转载 numpy地址

pip安装 http://zhidao.baidu.com/link?url=nkRwDOZ1ALMjRsWHGMR1nLSIyuVycoD4j-mhGDsYptPwDRGYcE8u4_B9VvYk10P69FU-EQTtV_s0qNw-gXKku_ numpy地址 https://sourceforge.net/projects/matplotlib/files/...

2016-06-23 10:02:00 71

转载 导入微博数据

导入微博数据,用Navicat,弄了好久,累死我了 1、需要导入的是excel表格,里面含有汉字 首先将excel另存为csv格式,再将csv另存为txt格式,再将txt格式另存为UTF8编码的txt格式 2、导入时不要直接导入表,而是自己新建表,自己定义表的每个栏位和类型,并把下面的字符集选成UTF8,排序方式我选成了utf8-general-ci,不知道有没有用 3、新...

2016-06-16 16:04:00 129

转载 Mysql初学入门

最近研究了一下Mysql的初学应用,在此进行整理记录。 1、Windows系统下的安装   我用的是win10系统,在http://dev.mysql.com/downloads/mysql/下载相应版本的Mysql,下载后进行解压即可。   下载好后,进行安装,安装及配置步骤参照http://jingyan.baidu.com/article/f3ad7d0ffc061a09c...

2016-05-24 21:13:00 52

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除