自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (21)
  • 问答 (1)
  • 收藏
  • 关注

原创 HMM viterbi 算法

好久没更新了,写了一个 viterbi 算法,主要是加深理解哈# coding=utf-8"""首先通过语料库计算出 HMM 的三要素:初始状态π状态转移矩阵 A发射矩阵 B然后用 Viterbi 算法进行切词操作"""TRAIN_CORPUS = 'trainCorpus.txt_utf8'PROB_INIT = 'prob_init.txt'PROB_EMIT = ...

2019-05-09 09:24:33 334

原创 最大正向匹配 mm

切词最基础的方法就是最大正向匹配,主要是基于词典完成的哈,但是存在的问题也很明显,比如 歧义、未登录词等,下面是我实现的代码,其实最主要的贡献就是提供了一个词袋,人民日报那个def max_forward(dict_file, input_sentence, max_len=4): """最大匹配""" with open(dict_file) as fi: ...

2019-04-13 12:49:49 399

转载 最大概率分词

看到@wangliang_f 同学分享的文章,很清晰,知识代码有些问题,在这里修复了下,感兴趣的可以测试跑一下哈#!/usr/bin/env python# coding=utf-8############################################################## function: max probility segment# ...

2019-03-06 23:20:30 583

原创 trie 树

在看nlp切词分词的 时候看到了 trie 树(一种前缀树),用 python 实现了一把,因为没有指针,目前能想到的使用字典来做,具体见一下代码,有一个问题是没有判断是不是一个完整的单词,例如,如果 trie 树中存在'try',这个单词,那么查询'tr',接口也返回 true,这个加一个标记位时可以搞定的:#trie树,没有指针,考虑用字典来存储{'a':{'l':{'l'},}, 'b...

2019-03-06 09:07:57 131

原创 简单实现 fasttext

这个文件是主文件,主要就是把输入的句子,变成 id,然后进行 reduce_mean,进行下 wx_b 操作,最后 soft_max 得到分类结果,没有使用分层 soft 哈。import tensorflow as tffrom sklearn import metricsimport sysimport osimport timeimport numpy as npfrom ...

2019-01-22 15:56:48 382

原创 关于 textcnn 多标签问题

目前业务上需要使用文本多标签标注,类似知乎主题多标签。刚开始接触 textcnn 的时候是单标签,后来查资料发现 textcnn 也是可以进行多标签分类的,一个关键点就是将损失函数 softmax_cross_entropy_with_logits 改成 sigmoid_cross_entropy_with_logits哈...

2019-01-13 08:22:40 1711 1

原创 对 textcnn 的理解

虽然用 cnn 训练主题分类很久了,金牌突然有点疑惑,本质上 textcnn 就是用 kernel 进行特征提取,ok,那么问题来了:为什么我要进行 embedding?embedding 之后应该还是表示这个字(中文),那我用embedding_dim=1(就是字典 id)来做可不可以,理论上应该没啥变化的哈(自己认为)那就做个实验吧一、把之前embedding = tf.get_var...

2019-01-09 19:27:18 220

原创 rnn attention 进行文本分类测试报告

一直在在进行 NLU 的研究,项目需要,需要进行text class,之前用的是 xgb,使用的是二分类,效果总体还可以,但是缺点也很明显,费劲呀,当需要进行生产时,每一个文本都需要把所有的模型全部调用一遍,流量很大的时候,服务器压力可想而知哈。后来进行了 textcnn 的测试,对于每一个class,使用二分类的时候,效果可以比 xgb 提升约5%,达到93%,问题还是上面提到的,流量大了服...

2018-12-31 20:34:37 628

原创 CFG/PCFG/CYK

CFG:Context-Free Grammer(上下文无关语法)PCFG:Probabilistic Context-Free Grammar(概率分布的上下文无关语法)CYK:Cocke–Younger–Kasami

2018-12-11 08:57:33 864

原创 RNN笔记

RNN(Recurrent Neural Network)是深度神经网络的一种,因为拥有「记忆」功能,主要应用在时序相关的场景中,如NLP、图像标注等。目前应用比较多的是RNN 的一种变种LSTM(Long Short-term Memory)、GRU 等。先来看一张 RNN 经典的图  RNN 的计算公式如下:其中,是 t 时刻的输入;是 t 时刻的「记忆」,也可以说...

2018-12-03 11:25:11 171

原创 最小二乘法、最大似然估计、交叉熵、贝叶斯

备注:对这些的理解主要是在机器学习领域什么是最小二乘法?自己理解的最小二乘法就是各项差值的平方和,(a-x)²+(b-x)²+(c-x)²......,具体可以看下这个资料,介绍的很详细那问题来了,这个和 MSE 有什么区别?只是一个是平方和,一个是平方和的平均吗??我看有的同学说,MSE 是加权的最小二乘法。什么是最大似然估计?我们以最经典的抛硬币为例,一般情况是这样,我们知...

2018-11-29 14:08:44 1024

原创 使用 cnn 进行 mnist 分类--练习

刚开始学习深度学习,使用 mnist 进行练习,刚开始自己定义了有3个卷积层(卷积+池化层),一个 fc 层,跑出的结果居然是50%,太低了,一脸懵逼,后来想到估计是自己 batch 的次数太少了(只有10 * 10次),想想也是,训练次数少(刚开始每个batch 是5000),每个 batch 会更新一次网络参数,100次肯定低到没朋友(没有达到拟合数据的数量级别),现在修改成了500。另外还有...

2018-11-26 22:35:24 372

原创 试写 tensorflow 的 helloword

直接上程序哈import tensorflow as tfimport numpy as np#import pdb'''先说明下,这段代码主要实现的是希望程序能够自动学习 y = x*x - 0.5 式子'''graph = tf.Graph()with graph.as_default(): #pdb.set_trace() #定义了一个输入变量 xs 和 ys(暂且...

2018-11-22 19:56:04 209

原创 tensorflow学习笔记

1) 创建变量的两种方式:tf.get_variable()和 tf.Variable()为了实现变量共享,所以有了 tf.get_variable()这个函数,当然前提是配合 tf.variable_scope()使用,官方给出了一个例子,注意 reuse=tf.AUTO_REUSE:def foo(): with tf.variable_scope("foo", reuse=...

2018-11-16 08:36:30 416

原创 Python 编程

1、二维数组中,每行从左到右递增,每列从上到下递增,给出一个数,判断它是否在数组中'''这个东西没啥写的哈'''def getNum(arr, num): if arr == None or num == None: return False line = len(arr) cloumn = len(arr[0]) for i in range(line): if ...

2018-11-13 20:17:04 372

转载 boosting方法讲解

看了周志华的西瓜书,集成学习,公式太多,也不好懂,后来发现了一个讲解的很好的博文,分享一下:https://blog.csdn.net/guyuealian/article/details/70995333

2018-11-13 16:31:29 200

原创 一次失败的尝试?使用 CNN+DT进行文本分类

最近在搞机器学习,产品需要对句子进行主题分类,具体来说就是给你一两句话,然后把他划分到不同的主题上。那经过调研测试,使用 text-cnn 进行主题分类效果不错,准确率达到了92%。今天突然来「灵感」了,觉得可以尝试CNN+DesicionTree,如何实施呢?1、进行 常规 cnn 模型的训练2、把测试集重新放入 cnn 模型,得到中间产物  max-pool 的 tensor,...

2018-11-07 16:04:40 266

原创 机器学习杂记,主要记录学习过程中的一些疑问和理解

一、最近看tensorflow,试着写 cnn 代码,其中的一个接口 :def conv2d(input, filter, strides, padding, use_cudnn_on_gpu=True, data_format="NHWC", dilations=[1, 1, 1, 1], name=None)其中 filter 这个 tensor  [filter_height...

2018-10-26 13:38:33 137

原创 最近在做题练习 python,记录下哈

题目:小明很喜欢数学,有一天他在做数学作业时,要求计算出9~16的和,他马上就写出了正确答案是100。但是他并不满足于此,他在想究竟有多少种连续的正数序列的和为100(至少包括两个数)。没多久,他就得到另一组连续正数和为100的序列:18,19,20,21,22。现在把问题交给你,你能不能也很快的找出所有和为S的连续正数序列? Good Luck!思路:如果要计算2个连续的数之和等于给...

2018-10-22 16:40:34 173

原创 机器学习笔记

常用的误差函数:平方误差:  logistic 误差函数: 

2018-09-08 09:35:55 88

转载 反向传播 BP 算法文章分享

之前一直不明白BP(back propagation)是什么鬼,神一样的存在,看了很多资料似懂非懂哈,如果你也有类似情况,可以看一下这个文章,讲的非常透彻,CS231n课程笔记翻译:反向传播笔记...

2018-09-07 09:46:22 92

原创 决策树 ID3学习笔记

最近开始看机器学习方面的知识,决策树(DT)主要有三种算法 ID3(Iterative Dichotomiser 3)、 C4.5、CART哈。包括的知识有,信息熵、信息增益、信息增益率、基尼指数概念,另外还有预剪枝、后剪枝等。决策树算法的优点:1:易于理解,使用白盒模型,相比之下,在一个黑盒子模型(例如人工神经网络),结果可能更难以解释2:需要准备的数据量不大3:能够处理数字和数...

2018-09-06 17:45:28 168

原创 rnn理解

看了两天 rnn,找了个简单实现,画出了一个大致图,呵呵,就是为了方便,做个记录。源码地址https://gist.github.com/karpathy/d4dee566867f8291f086上图: 

2018-08-28 19:48:18 108

图像压缩源码

因前一段时间搞图像压缩这一块,从网上搜集了各种代码,这里面包括目前可以搜到的,共22个吧,希望对研究这一块的人有用吧

2013-06-28

openjpeg_v1_3.tar

openjpeg_v1_3.tar这个也不错,是jpeg源码,可以看看哟

2013-06-16

小波变换源码

可以用的,希望大家喜欢,呵呵,外国网站下的

2013-06-16

crblib 库下载

crblib,用于图像压缩,小波变换,希望对大家有帮助

2013-06-16

峰值信噪比PSNR的小程序

这是一个计算BMP24位真彩色图像的峰值信噪比PSNR的小程序,基于MFC的,有着简单朴素的界面,提供给从事图像处理的同行们!

2013-06-16

图像处理的常用图片

图像处理的常用图片,希望对大家有所帮助!

2013-06-05

矢量量化源代码

本程序利用VC6.0实现了图像压缩中的一种高效率的矢量量化技术 <br>利用选定的10幅标准图像进行用LBG算法进行码书的训练 然后利用该码书对测试图像进行编码 得到较好的效果 由于矢量量化是一种有损的压缩方法 所以必须保证图像的失真率 另外 本程序中所用的图像全部为长宽比1:1的8位深度图像 欢迎有相同兴趣的朋友共同探讨 提出意见

2013-05-06

FIFO c代码

FIFO c代码,希望可以帮助大家了。呵呵,欢迎补充。

2013-05-01

Visual C++ 实现 MPEG-JPEG 编解码技术 pdf

Visual C++ 实现 MPEG-JPEG 编解码技术 pdf 找了好久才找到,内容比较清晰,希望可以帮到有需要的人

2013-04-27

实现MPEG/JPEG编码技术 源码

实现MPEG/JPEG编码技术 源码,希望可以帮助大家

2013-04-26

jpeg压缩源码

这里有三个有关jpeg压缩的源代码。 1采用VC代码实现JPEG图像压缩,DCT变换,霍夫曼编码 2JPEG图象编解码代码,代码没有注释,西北大学(美国那个西北大学)放在网上供下载的,没有别的乱七八糟的东西

2013-04-25

windows桌面壁纸API

本程序给那些需要做桌面扩展,而又不知道如何使用API扩展的朋友 本程序会自动扩展第二桌面的桌面,运行时无界面,成功后退出 功能:开启和关闭win扩展桌面 参数: 直接运行则扩展桌面、参数-0、/0、0 是,取消扩展桌面

2013-01-09

TightVNC 源码下载

TightVNC 1.3.10 is available for both Windows and Unix-like systems. Windows (248,165 bytes) Viewer executable, does not require installation Unix / Linux download (1,780,510 bytes) Unix source code in Tar+Bzip2 archive To achieve best performance under Windows 2000, Windows XP and above, download and install DFMirage mirror display driver (free download). TightVNC Server can use this driver to detect screen updates and grab pixel data in a very efficient way. Note that DFMirage can be used only with versions 1.3.x of TightVNC.

2012-11-13

屏幕差异传输

差异屏幕传输,只传变化部分,给出两种算法,基于分块和隔行扫描算法,另外还附带了屏幕抓取的方法

2012-09-21

bmp位图的读取

bmp位图读取,环境vc6.0,语言c,希望对大家有用。

2012-09-20

jpg转bmp代码

jpg图片解压缩bmp图片,环境vc6.0,语言c。

2012-09-20

jpg图像显示

对jpg图片显示程序,且动态交互,JPG jpeg图片显示程序

2012-09-12

uninstUSB开源

可以获得usb端的信息,获取usb端的信息,从而可以进行usb设备操作。希望对大家有帮助。

2012-08-25

显示器eeprom数据

提供了多种显示器eeprom的数据,可以供广大爱好者学习使用,希望给大家带来方便。

2012-08-24

VNC图像更新机制

这里讲述了vnc图像传输技术,通过分析vnc来是我们更加了解远程图像传送。

2012-08-24

人物行走动画图

人物行走,可以用于开发使用的,很好的,呵呵

2012-07-22

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除