xgli的博客

想让博客有个排名,去掉“千里之外”。联系方式:xgli0807@gmail.com

基于RNN的机器翻译

基于RNN的机器翻译 1、训练 2、翻译

2019-07-24 15:17:02

阅读数 48

评论数 0

基于RNN的语言模型

基于RNN的语言模型 1、训练 2、计算一句话的概率 3、输出下一个词 4、给定初始种子,输出一句话

2019-07-24 15:15:07

阅读数 12

评论数 0

sentencepiece原理和使用

sentencepiece在中文上相当于分词+BPE

2018-11-30 11:03:55

阅读数 1155

评论数 0

BPE的原理及代码解析

BPE:在自然语言处理中,序列到序列模型中(机器翻译、对话)需要设置词表,使用较小的词表,有助于提高系统的性能。BPE在欧洲语系可能表现的更为有效一些,主要由于欧洲语系中存在词缀等概念。 BPE训练 BPE的大概训练过程:首先将word分成一个一个的字符,然后统计字符对出现的次数,每次将次数最...

2018-05-29 19:58:53

阅读数 6251

评论数 0

文本相似度-词袋模型

1、词袋模型 将两篇文本通过词袋模型变为向量模型,通过计算向量的余弦距离来计算两个文本间的相似度。词袋模型的缺点: 词袋模型最重要的是构造词表,然后通过文本为词表中的词赋值,但词袋模型严重缺乏相似词之间的表达。 比如“我喜欢北京”“我不喜欢北京”其实这两个文本是严重不相似的。但词袋模型会判为...

2017-11-23 16:10:24

阅读数 2362

评论数 0

【文本聚类】用k-means对文本进行聚类

# -*- coding: utf-8 -*- """ Created on Thu Nov 16 10:08:52 2017@author: li-pc """import jieba from sklearn.feature_ext...

2017-11-18 16:00:40

阅读数 7725

评论数 6

文本分类系列-使用CNN和LSTM构建分类器的对比

晚了一步,有人已经完成。不过还是会添加一些自己的理解,再写写的。 贴上地址:https://gaussic.github.io/2017/08/30/text-classification-tensorflow/

2017-11-01 16:51:41

阅读数 4078

评论数 2

CNN和RNN在自然语言中的适用场景

是个问题,有没有人回答一下。

2017-10-31 18:19:41

阅读数 2177

评论数 0

样本方差的快速计算-遍历一遍样本集

在统计学中,经常需要样本的方差计算,比较麻烦的方式是 (1)第一次遍历计算出样本的平均值 (2)第二次遍历才能计算出样本的方差 上述方法在样本较少的情况下,非常合适,但如果样本非常大,这种方式就不可取了,而且如果样本是持续增长的,就都不适用了。先上代码#第一步:遍历一遍样本 样本e in 样...

2017-10-12 16:09:51

阅读数 1232

评论数 0

大数乘法 python

def fun(num1,num2): #num1 type str #num2 type str a = map(int,list(reversed(num1))) b = map(int,list(reversed(num2))) result = [0...

2017-09-25 17:16:37

阅读数 1296

评论数 2

python 字典排序

python 字典(dict)的特点就是无序的,按照键(key)来提取相应值(value),如果我们需要字典按值排序的话,那可以用下面的方法来进行:1 下面的是按照value的值从大到小的顺序来排序。dic = {‘a’:31, ‘bc’:5, ‘c’:3, ‘asd’:4, ‘aa’:74, ‘...

2017-08-14 11:11:58

阅读数 476

评论数 0

n-gram统计 计算句子概率 SRILM安装使用

不是非要写一篇的,是这个网上太少了,而且貌似也没有其他工具来做这项工作了。因此本文主要写怎么使用SRILM统计n-gram,并使用该工具得到的语言模型进行句子概率的计算。当然如果有更好的工具请大家一定要推荐一下。1、安装安装官方写的很简单,遇到问题,又很少有解答的,难道其他人都一次性安装成功了吗。...

2017-08-09 21:03:54

阅读数 3110

评论数 2

CRF++的使用 CRF用于中文分词

本文只讲CRF的应用,CRF的原理已经有足够多的人讲了。1、基石-数据机器学习到现在,最重要的莫过于数据了,模型就那么几个了,数据的规模、质量对模型的影响是非常非常大的。使用的数据为北京大学人民日报的语料,处理的格式如图所示,格式为“词 词性 可分标志”,其中可分标志分为,B为一个词的开始字,E为...

2017-07-31 18:21:43

阅读数 3336

评论数 1

tensorflow GPU使用问题

linux下查看GPU使用情况的命令nvidia-smi几个观察参数 Fan:代表显卡转速,以百分比显示; Temp:代表显卡温度; Perf:性能等级,p1~p12,数字越小,性能较好。 Pwr:usage/cap :当前功率/总功率。 Memory-Usage:显卡的显存使用容量跟...

2017-07-25 19:56:58

阅读数 10248

评论数 1

tf.reduce_sum tensorflow维度上的操作

tensorflow中有很多在维度上的操作,本例以常用的tf.reduce_sum进行说明。官方给的apireduce_sum( input_tensor, axis=None, keep_dims=False, name=None, reduction_i...

2017-07-07 09:20:30

阅读数 25247

评论数 4

maven将本地jar包放在本地仓库

一般我们在使用maven添加jar的时候,都是直接在pom.xml中添加依赖,变可从中央仓库中下载该jar包。但是有时候偏偏中央仓库中没有我们需要的jar包,或者需要使用我们自己的jar包的时候,该怎么办呢? 解决办法就是把本地的jar包添加到本地仓库中,然后在pom.xml中添加依赖即可。具体...

2017-05-22 09:57:29

阅读数 4205

评论数 0

tensorflow : 使用预训练词向量

目前使用深度网络进行文本任务模型训练时,第一步应该是将文本转为词向量进行处理。但一般词向量的效果跟语料的大小有关,而处理任务的语料不足支持我们的实验,这时就需要使用网上公开的大规模语料训练词向量。 1、下载 网上公开的词向量下载地址:https://github.com/xgli/word...

2017-05-19 10:21:46

阅读数 27233

评论数 9

分类问题中的数据不平衡问题

在很多机器学习任务中,训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡,为了使得学习达到更好的效果,因此需要解决该类别不平衡问题。Jason Brownlee的回答:原文标题:8 Tactics to Combat Imbalanced Classes in Y...

2017-05-09 11:22:43

阅读数 4880

评论数 0

机器学习中的过拟合

这几天在训练一个文本处理的机器学习算法,使用支持向量机和决策树算法在训练集上的数据的准确度特别高,但是在测试集上的数据的准确度确很低,于是陷入过度拟合的烦恼中,查找资料发现一些多度拟合的看法。仔细想想确实在训练时存在一些问题,第一:输入变量多,由于缺乏对问题的根本认识,使用了很多无关变量,这个问题...

2017-05-09 11:09:25

阅读数 519

评论数 0

python 字典setdefault操作

#dict.setdefault(key, default=None) d = {'a':1,'b':2} b = d.setdefault('a',3) #b = 1 b = d.setdefault('c',3) #b = 3 d.setdefault('d',4) #d={'a':1,'b'...

2017-05-07 17:01:11

阅读数 521

评论数 0

提示
确定要删除当前文章?
取消 删除