- 博客(23)
- 资源 (21)
- 问答 (1)
- 收藏
- 关注
原创 HMM viterbi 算法
好久没更新了,写了一个 viterbi 算法,主要是加深理解哈# coding=utf-8"""首先通过语料库计算出 HMM 的三要素:初始状态π状态转移矩阵 A发射矩阵 B然后用 Viterbi 算法进行切词操作"""TRAIN_CORPUS = 'trainCorpus.txt_utf8'PROB_INIT = 'prob_init.txt'PROB_EMIT = ...
2019-05-09 09:24:33
334
原创 最大正向匹配 mm
切词最基础的方法就是最大正向匹配,主要是基于词典完成的哈,但是存在的问题也很明显,比如 歧义、未登录词等,下面是我实现的代码,其实最主要的贡献就是提供了一个词袋,人民日报那个def max_forward(dict_file, input_sentence, max_len=4): """最大匹配""" with open(dict_file) as fi: ...
2019-04-13 12:49:49
399
转载 最大概率分词
看到@wangliang_f 同学分享的文章,很清晰,知识代码有些问题,在这里修复了下,感兴趣的可以测试跑一下哈#!/usr/bin/env python# coding=utf-8############################################################## function: max probility segment# ...
2019-03-06 23:20:30
583
原创 trie 树
在看nlp切词分词的 时候看到了 trie 树(一种前缀树),用 python 实现了一把,因为没有指针,目前能想到的使用字典来做,具体见一下代码,有一个问题是没有判断是不是一个完整的单词,例如,如果 trie 树中存在'try',这个单词,那么查询'tr',接口也返回 true,这个加一个标记位时可以搞定的:#trie树,没有指针,考虑用字典来存储{'a':{'l':{'l'},}, 'b...
2019-03-06 09:07:57
131
原创 简单实现 fasttext
这个文件是主文件,主要就是把输入的句子,变成 id,然后进行 reduce_mean,进行下 wx_b 操作,最后 soft_max 得到分类结果,没有使用分层 soft 哈。import tensorflow as tffrom sklearn import metricsimport sysimport osimport timeimport numpy as npfrom ...
2019-01-22 15:56:48
382
原创 关于 textcnn 多标签问题
目前业务上需要使用文本多标签标注,类似知乎主题多标签。刚开始接触 textcnn 的时候是单标签,后来查资料发现 textcnn 也是可以进行多标签分类的,一个关键点就是将损失函数 softmax_cross_entropy_with_logits 改成 sigmoid_cross_entropy_with_logits哈...
2019-01-13 08:22:40
1711
1
原创 对 textcnn 的理解
虽然用 cnn 训练主题分类很久了,金牌突然有点疑惑,本质上 textcnn 就是用 kernel 进行特征提取,ok,那么问题来了:为什么我要进行 embedding?embedding 之后应该还是表示这个字(中文),那我用embedding_dim=1(就是字典 id)来做可不可以,理论上应该没啥变化的哈(自己认为)那就做个实验吧一、把之前embedding = tf.get_var...
2019-01-09 19:27:18
220
原创 rnn attention 进行文本分类测试报告
一直在在进行 NLU 的研究,项目需要,需要进行text class,之前用的是 xgb,使用的是二分类,效果总体还可以,但是缺点也很明显,费劲呀,当需要进行生产时,每一个文本都需要把所有的模型全部调用一遍,流量很大的时候,服务器压力可想而知哈。后来进行了 textcnn 的测试,对于每一个class,使用二分类的时候,效果可以比 xgb 提升约5%,达到93%,问题还是上面提到的,流量大了服...
2018-12-31 20:34:37
628
原创 CFG/PCFG/CYK
CFG:Context-Free Grammer(上下文无关语法)PCFG:Probabilistic Context-Free Grammar(概率分布的上下文无关语法)CYK:Cocke–Younger–Kasami
2018-12-11 08:57:33
864
原创 RNN笔记
RNN(Recurrent Neural Network)是深度神经网络的一种,因为拥有「记忆」功能,主要应用在时序相关的场景中,如NLP、图像标注等。目前应用比较多的是RNN 的一种变种LSTM(Long Short-term Memory)、GRU 等。先来看一张 RNN 经典的图 RNN 的计算公式如下:其中,是 t 时刻的输入;是 t 时刻的「记忆」,也可以说...
2018-12-03 11:25:11
171
原创 最小二乘法、最大似然估计、交叉熵、贝叶斯
备注:对这些的理解主要是在机器学习领域什么是最小二乘法?自己理解的最小二乘法就是各项差值的平方和,(a-x)²+(b-x)²+(c-x)²......,具体可以看下这个资料,介绍的很详细那问题来了,这个和 MSE 有什么区别?只是一个是平方和,一个是平方和的平均吗??我看有的同学说,MSE 是加权的最小二乘法。什么是最大似然估计?我们以最经典的抛硬币为例,一般情况是这样,我们知...
2018-11-29 14:08:44
1024
原创 使用 cnn 进行 mnist 分类--练习
刚开始学习深度学习,使用 mnist 进行练习,刚开始自己定义了有3个卷积层(卷积+池化层),一个 fc 层,跑出的结果居然是50%,太低了,一脸懵逼,后来想到估计是自己 batch 的次数太少了(只有10 * 10次),想想也是,训练次数少(刚开始每个batch 是5000),每个 batch 会更新一次网络参数,100次肯定低到没朋友(没有达到拟合数据的数量级别),现在修改成了500。另外还有...
2018-11-26 22:35:24
372
原创 试写 tensorflow 的 helloword
直接上程序哈import tensorflow as tfimport numpy as np#import pdb'''先说明下,这段代码主要实现的是希望程序能够自动学习 y = x*x - 0.5 式子'''graph = tf.Graph()with graph.as_default(): #pdb.set_trace() #定义了一个输入变量 xs 和 ys(暂且...
2018-11-22 19:56:04
209
原创 tensorflow学习笔记
1) 创建变量的两种方式:tf.get_variable()和 tf.Variable()为了实现变量共享,所以有了 tf.get_variable()这个函数,当然前提是配合 tf.variable_scope()使用,官方给出了一个例子,注意 reuse=tf.AUTO_REUSE:def foo(): with tf.variable_scope("foo", reuse=...
2018-11-16 08:36:30
416
原创 Python 编程
1、二维数组中,每行从左到右递增,每列从上到下递增,给出一个数,判断它是否在数组中'''这个东西没啥写的哈'''def getNum(arr, num): if arr == None or num == None: return False line = len(arr) cloumn = len(arr[0]) for i in range(line): if ...
2018-11-13 20:17:04
372
转载 boosting方法讲解
看了周志华的西瓜书,集成学习,公式太多,也不好懂,后来发现了一个讲解的很好的博文,分享一下:https://blog.csdn.net/guyuealian/article/details/70995333
2018-11-13 16:31:29
200
原创 一次失败的尝试?使用 CNN+DT进行文本分类
最近在搞机器学习,产品需要对句子进行主题分类,具体来说就是给你一两句话,然后把他划分到不同的主题上。那经过调研测试,使用 text-cnn 进行主题分类效果不错,准确率达到了92%。今天突然来「灵感」了,觉得可以尝试CNN+DesicionTree,如何实施呢?1、进行 常规 cnn 模型的训练2、把测试集重新放入 cnn 模型,得到中间产物 max-pool 的 tensor,...
2018-11-07 16:04:40
266
原创 机器学习杂记,主要记录学习过程中的一些疑问和理解
一、最近看tensorflow,试着写 cnn 代码,其中的一个接口 :def conv2d(input, filter, strides, padding, use_cudnn_on_gpu=True, data_format="NHWC", dilations=[1, 1, 1, 1], name=None)其中 filter 这个 tensor [filter_height...
2018-10-26 13:38:33
137
原创 最近在做题练习 python,记录下哈
题目:小明很喜欢数学,有一天他在做数学作业时,要求计算出9~16的和,他马上就写出了正确答案是100。但是他并不满足于此,他在想究竟有多少种连续的正数序列的和为100(至少包括两个数)。没多久,他就得到另一组连续正数和为100的序列:18,19,20,21,22。现在把问题交给你,你能不能也很快的找出所有和为S的连续正数序列? Good Luck!思路:如果要计算2个连续的数之和等于给...
2018-10-22 16:40:34
173
转载 反向传播 BP 算法文章分享
之前一直不明白BP(back propagation)是什么鬼,神一样的存在,看了很多资料似懂非懂哈,如果你也有类似情况,可以看一下这个文章,讲的非常透彻,CS231n课程笔记翻译:反向传播笔记...
2018-09-07 09:46:22
92
原创 决策树 ID3学习笔记
最近开始看机器学习方面的知识,决策树(DT)主要有三种算法 ID3(Iterative Dichotomiser 3)、 C4.5、CART哈。包括的知识有,信息熵、信息增益、信息增益率、基尼指数概念,另外还有预剪枝、后剪枝等。决策树算法的优点:1:易于理解,使用白盒模型,相比之下,在一个黑盒子模型(例如人工神经网络),结果可能更难以解释2:需要准备的数据量不大3:能够处理数字和数...
2018-09-06 17:45:28
168
原创 rnn理解
看了两天 rnn,找了个简单实现,画出了一个大致图,呵呵,就是为了方便,做个记录。源码地址https://gist.github.com/karpathy/d4dee566867f8291f086上图:
2018-08-28 19:48:18
108
矢量量化源代码
2013-05-06
Visual C++ 实现 MPEG-JPEG 编解码技术 pdf
2013-04-27
jpeg压缩源码
2013-04-25
windows桌面壁纸API
2013-01-09
TightVNC 源码下载
2012-11-13
lua匿名函数问题,和我预期的不太一样,请帮忙看下,谢谢
2015-07-30
TA创建的收藏夹 TA关注的收藏夹
TA关注的人