自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Call Me Hi Johnny~~

路漫漫其修远兮

  • 博客(88)
  • 资源 (12)
  • 收藏
  • 关注

原创 多维高斯分布模型

多维高斯模型在机器学习中应用广泛,在学到 Generative Learning Algorithm的时候,碰到了高斯模型,才意识到一定要恶补一下这部分知识,之前上自然语言课的时候,就因为多维高斯模型不懂,全程懵逼。本来想把这部分内容同生成学习法放在一起,但是想到这玩意把我虐那么痛苦,就单独一篇博客来写。首先学习高斯模型之前,我们一定会 随机向量函数分布 的该概念随机向量函数分布

2017-05-07 00:34:48 41873 11

原创 Reasoning about Quantities in Natural Language

文章结构:这篇博客按照论文的顺序讲解,只写了我在读paper过程的疑惑,其他部分都略过,如果有疑问请留言,我会相应补充对应的部分Abstract:这篇文章发表于2015年的ACL,主要研究文本中数字的解析问题。 我自己的研究生论文毕设方向是关于数字的解析,我读到QSRL: A Semantic Role-Labeling Schema for Quantitative Facts这篇论文的时...

2019-05-28 22:15:17 295

原创 了不起的盖茨比

One night I did hear a material car there and saw its lights stop at his front steps. But I didn’t investigate.

2019-05-05 21:32:17 364

原创 今日的天气真的好

这样稍微阴沉的天气下,总是让人有舒畅的安全感。

2019-04-20 12:47:04 503

原创 心情

看过太多的人和事,善良的人始终在路上,而不善良的人早就偏离了轨道,活在愤怒却不自知。善良不是一种选择,因为实在不是像选择那样轻而易举。他是一种修行,最终保护的是修行人自己。天地虽大,但有一念向善,心存良知,虽凡夫俗子,皆可为圣贤 -王守仁...

2018-12-01 01:29:48 299 2

原创 中国健康信息处理会议(CHIP) 2018 比赛 第九名 方案分享

这个比赛,我是最后5天参加的,只做了两天。师兄问我要不要打,最近心情比较沉重,作为消遣就打一打。比赛地址:CHIP 2018这个比赛跟蚂蚁金服比赛一样,是一个语义相似度比赛。数据已经做了脱敏处理,字向量,词向量都已经给了。我就把我在蚂蚁金服比赛都拿出来跑了一跑,发现分数不高。就开始做了以下数据分析...

2018-11-26 18:16:24 2512 6

原创 从Variational Inference到 VAE的详细概述

待续

2018-10-25 16:36:12 1874

原创 Least Squares Generative Adversarial Networks(LSGAN)

这个模型,我是在李宏毅老师的课程上看到的。 之所以单把这个模型拿出来写一个博客是因为,我觉得李宏毅老师讲的不对啊。首先,声明李宏毅老师是我非常钦佩和尊敬的老师,看我的博客就可以知道,很多博客都是关于他的视频课程的读后感,可以说李宏毅老师是我的恩师啊。建议看我的博客之间大家还是看看李宏毅老师的视频课程GAN LECTURE6。首先,按着论文的思路来讲以下这个模型的思想,同时对比李宏毅老师的思路。...

2018-10-17 17:22:36 3756 2

原创 GAN系列-原理篇

最近开始看GAN相关地知识。GAN是很经典的模型,个人认为这里面的坑还是比较多的,以后写论文说不定能用上。这篇博客重点是从原理上去说明GAN,会涉及较多的数学公式。GAN的训练方式大家都很熟悉了,认为很简单。但是我认为,要想深入地理解GAN模型光能实践还是不够地,还是需要理解他地由来,以及数学表达方式。这样才有可能进一步地利用GAN ,做出我们自己想要地东西,而不是从网上copy个代码,跑一下就...

2018-10-15 20:13:12 4851

原创 强化学习: Experience Replay

我第一次接触 Experience Replay 概念是李宏毅老师的视频课上。当时李宏毅老师说 为什么Experience Replay 可行留作自己思考,然后并没有做太详细的解释。接下来,我就把我对Experience Replay 的理解写下来。首先,我把李宏毅老师的Q-learning 算法贴出来,他的Q-learning 算法跟传统Q-learning 算法有一些微小的区别以下是Ex...

2018-10-14 18:19:20 5156 2

原创 强化学习: On-Policy与 Off-Policy 以及 Q-Learning 与 SARSA

刚接触强化学习,都避不开On Policy 与Off Policy 这两个概念。其中典型的代表分别是Q-learning 和 SARSA 两种方法。这两个典型算法之间的区别,一斤他们之间具体应用的场景是很多初学者一直比较迷的部分,在这个博客中,我会专门针对这几个问题进行讨论。以上是两种算法直观上的定义。我们都称 Q-Learning 是 Off Policy . SARSA 是 On Pol...

2018-10-13 21:48:52 6717

原创 强化学习-策略梯度

从现在开始,进行一系列的强化学习笔记,课程主要是结合David Silver 和 李宏毅老师的课程。 David Silver 课程偏理论,而且我个人觉得讲的不是很透彻,对比李宏毅老师的课程就讲的非常深入浅出了。这节,我们来看看策略梯度算法。在这里是状态作为输入,动作作为输出,如上图所示以给定的策略,我们可以生成一个episode数据(状态1,动作1,状态2,动作2…)对于一个epis...

2018-10-13 20:37:13 545

原创 2018 ATEC NLP比赛 15th 总结

这次比赛跟以往的比赛似乎很不一样(虽然这个是我第一次参加),以往比赛的特征技巧,融合技巧,以及一些典型的模型都在这次比赛都失效。我一度怀疑蚂蚁金服是故意设计了数据。。。。赛题介绍问题相似度计算,即给定客服里用户描述的两句话,用算法来判断是否表示了相同的语义。示例:“花呗如何还款” –“花呗怎么还款”:同义问句 “花呗如何还款” – “我怎么还我的花被呢”:同义问句 “花呗分期后...

2018-09-02 21:11:35 4423 12

原创 Internet English education

The development of the Internet has changed our lives. Our lives have changed a lot. With the advent of the 4G era, the mobile Internet has greatly changed our lives. Many things happened that we did ...

2018-06-09 14:06:46 417

原创 ubuntu server connect command

ssh [email protected] -Lxx.xx.xx.xx:1234:xx.xx.xx.xx:8888

2018-03-17 18:06:26 298

原创 A Sensitivity Analysis of (aConvolutional Neural Networks for Sentence C

最近读了论文“A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification” 里面介绍的是用CNN做句子分类的时候的一些经验。这里就简洁地总结一下这篇论文的主要内容。 在CNN模型中,超参数主要有词向量,Region Size的大...

2018-03-06 21:33:09 771

原创 Pytorch Bi-LSTM + CRF 代码详解

久闻LSTM + CRF的效果强大,最近在看Pytorch官网文档的时候,看到了这段代码,前前后后查了很多资料,终于把代码弄懂了。我希望在后来人看这段代码的时候,直接就看我的博客就能完全弄懂这段代码。 看这个博客之前,我首先建议看看 Pytorch 关于Bi-LSTM + CRF的解释 看完再看看这位的博客 Bi-LSTM-CRF for Sequence Labeling PENG 这...

2018-02-28 21:25:03 46911 33

原创 李宏毅老师Structured Learning课堂笔记 以及在 自然语言句法分析上的应用

每次写博客,都是我最开心的时候,因为每次决定写博客都是我觉得学到了非常重要的知识点。这篇博客,我会来谈论一下Structured Learning 以及在句法分析上的应用,Structured Learning 应用很广泛,只要掌握了这一思想,我们自然就会去应用它,我们的毕业论文方向是信息检索,我也会用你Structured Learning 方法来看一下效果会怎样。 在这篇博客中,我们会深入探...

2018-02-08 17:28:22 406

原创 自然语言期末复习笔记-Formal Grammars Of English

我在刚接触自然语言的时候,这部分的内容是最不愿意学的。因为现在深度学习这么火,都是把数据往网络里一扔,跑以下参数就OK了,不用去在意这些细节。 但是随着学习的深入,我越来越更愿意去接触这些知识。在此我想对深度学习在自然语言上的应用说以下自己浅薄的看法。深度学习在语音识别,图像识别上的效果非常好,但是在自然语言上还是没有达到质的飞跃。我曾经听到一种观点我觉得非常对,具体怎么说得已经找不到出处了,但是

2017-12-28 20:42:19 832 4

原创 自然语言期末复习笔记—最大熵马尔科夫模型MEMM

在这篇博客,我们来谈一谈最大熵马尔科夫模型MEMM 关于这部分内容,我看了一晚上,整个公式都都梳理了之后,愣是没明白这个最大熵体现在哪里,当然我最终查阅了很多资料,终于还是弄明白了,我会在这篇博客上详细讲解。不得不说一下,咱们国内的博客基本都是来自同一个资料源,就比如说这个最大熵马尔科夫模型,搜索来搜索去,都是拿复制转载,有的好的会加点自己的观点。 最大熵马尔科夫型MEMM 这个图是以序列标注

2017-12-26 23:53:26 1636

原创 自然语言期末复习笔记—最大熵模型

在这篇博客中,我们针对最大熵模型MaxEnt,最大熵马尔科夫模型MEMM,条件随机场CRF做一下介绍。首先我们来看看MaxEnt,MaxEnt模型中最本质得思想就是我们对未知的事情不要做任何假设。也就是对未知的事情应该等概率对待,这种条件下信息熵往往是最大的。最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。在这种情况下

2017-12-26 19:57:30 407

原创 自然语言期末复习笔记—神经网络语言模型NPLM

这次我们来讲讲神经网络语言模型,我们主要来谈谈为什么要使用神经网络。以及一些关键的点,更详细的内容,比如关于神经网络的结构之类的,就不在这细细讨论了,这方面网上的讨论很多。用n元语法,我们都知道如何表示一一个词的概率。 但是用这种方法有他的麻烦,我们都知道理论上,如果我们的n元数越大,结果应该是越精确的,但是实际中这种方法难以实行,原因在于随着我们的n元数增多,我们对数据数量的需求就越高。也就是说

2017-12-26 12:16:30 905

原创 自然语言期末复习笔记—Morphological Analysis

开始把这个学期的自然语言知识做一个归纳,记录在这个博客里。 Lexical Morphological Analysis 这个部分是关于词形态分析的内容。作为自然语言处理中首先要接触到的内容。 词形态分析包括两个部分: 1:断词 断词在汉语里面很重要,就是中文分词,我们有一个著名的jieba工具在可以很好地完成任务,我们在本学期也做了中文分词地大作业。大家基本用的都是基于统计的n元语法模型,

2017-12-25 22:02:49 1880

翻译 每日韩语:韩国年轻人婚礼形式的新趋势

本身我是朝鲜族,但是我的读写能力实在是弱鸡啊,所以打算在闲暇的时间学学韩语。不可能无时无刻写代码啊,对不对,哈哈哈 每天我会从韩国新闻网站上摘抄几个段落翻译一下,放心,虽然我的读写能力差,但是我的口语能力很好,可以无障碍沟通,意味着韩国人的思维习惯,我很了解,也就是说我翻译出来的文章绝对不会有差错的!~ 很多生词,以及他们的用法我不懂,所以在每天写一博客其实是在积累词汇的过程。如果你是初学者,已

2017-12-18 12:28:50 670

原创 《LDA数学八卦》读后笔记

LDA看过很多次了,每次都有新的理解(其实就是因为之前的理解不深)。首先要表达对靳志辉的敬仰,毕竟LDA资料里面,这个算是最好的读物了。 看完LDA多次想过要写一篇博客,但是一直没有写,因为我觉得我还没有理解,直到今天,我也不太敢说自己百分百的理解。我就把自己学习过程中的心得,写出来,供初学者参考,少走一些我走过的弯路就OK了。接下来,我会完全按照《LDA数学八卦》的排版顺序来解读。 先大概说下

2017-12-13 20:08:13 6532 1

原创 python pickle的用法实例代码

import pickle a1 = ‘apple’ b1 = {1: ‘One’, 2: ‘Two’, 3: ‘Three’} c1 = [‘fee’, ‘fie’, ‘foe’, ‘fum’] f1 = open(‘temp.pkl’, ‘wb’) pickle.dump(a1, f1, True) pickle.dump(b1, f1, True)

2017-11-15 14:43:25 325

原创 深度学习:多层感知机MLP数字识别的代码实现

深度学习我看的是neural network and deep learning 这本书,这本书写的真的非常好,是我的导师推荐的。这篇博客里的代码也是来自于这,我最近是在学习Pytorch,学习的过程我觉得还是有必要把代码自己敲一敲,就像当初学习机器学习一样。也是希望通过这个代码能够加深对反向传播原路的认识。在下面的代码中,比较复杂的部分就是mini_batch部分了,我们一定要有清晰的认识,我们在

2017-11-06 18:13:05 1767

原创 python the method of super function

class C: def init(self): print(‘enter C’) print(‘leave C’) class A: def init(self): print(“enter A”) print(“leave A”) class B(A): # A –...

2017-11-04 22:40:27 192

原创 深度学习:反向传播与基本原理

我们要证明得是这四个公式 有了这个四个公式,我们得反响传播就可以递推得到。 BP1公式: 这个是输出层误差方程,这个方程好像没啥好说的BP2公式 从这个公式我们可以通过高阶层的误差,通过的递推的方式求出每一层的误差BP3公式 BP4公式 从BP4公式我们可以看到,如果前一层的输出函数过于小的话 w参数学习就会变慢。

2017-11-04 20:56:56 1593

原创 Python处理时间

from dateutil.parser import parse a = parse(‘2011-01-03’) print(a) from dateutil.parser import parse a = parse(‘Jan 31,1997 10:45 PM’) print(a) from dateutil.parser import par...

2017-11-03 21:44:47 398

原创 Adaboost

这个是周志华老师的机器学习书里面的公式,表明如果基础分类器是弱分类器的 情况下,集成之后效果的效果会更好,因为我们从公式中可以看到,基分类器的数目T增长的时候,错误率是指数级下降的。 这个公式是怎么来的呢? 这个是周志华老师机器学习里的课后习题,现在咱们就来证明一下 到此我们对集成的直观理解是,如果我们有很多基分类器,他们之间独立,让他们各自预测之后,通过投票产生结果,如果数量足够多,那我们正确

2017-11-03 18:50:38 371

原创 Python defaultdict用法

from collections import defaultdict strings = (‘puppy’, ‘kitten’, ‘puppy’, ‘puppy’, ‘weasel’, ‘puppy’, ‘kitten’, ‘puppy’) counts = defaultdict(lambda: 0) for item in strings:

2017-10-31 20:05:41 290

原创 pandas删除和插入数据

df = pd.read_csv(‘1.csv’) data = df.pop(‘c’) print(data) print(df) df.insert(0,’data’,data) print(df)

2017-10-19 23:01:57 692

原创 pandas把所有大于0的数设置为1

df = pd.read_csv(‘hahaha.csv’) df[df>0] = 1 print(df)

2017-10-19 22:28:48 24912 2

原创 python list 返回索引的方法

a = [1,2,7,6,7,8] b = 7 c = a.index(b) print(c)

2017-10-17 20:09:51 12126

原创 pandas画图

Serise上的画图 import matplotlib.pyplot as plt import pandas as pd from pandas import * import numpy as np s = Series(np.random.rand(10).cumsum(),index=np.arange(0,100,10)) s.plot() plt

2017-10-17 15:41:23 345

原创 python matplot画图

import matplotlib.pyplot as plt import pandas as pd import numpy as np fig = plt.figure() ax = fig.add_subplot(2,2,1) ax.plot(np.random.rand(100)) ticks = ax.set_xticks([0,25,50,75])

2017-10-17 15:10:27 773

原创 pandas 计算指标/哑变量

import pandas as pd from pandas import * import numpy as np df = DataFrame({‘key’:[‘b’,’b’,’a’,’c’,’a’,’b’],’data1’:range(6)}) result = pd.get_dummies(df[‘key’],prefix=’key’) print(resul

2017-10-17 15:09:53 1057

原创 pandas groupby使用

import pandas as pd from pandas import * import numpy as np df = DataFrame({‘key1’:[‘a’,’a’,’b’,’b’,’a’], ‘key2’:[‘one’,’two’,’one’,’two’,’one’], ‘data1’:

2017-10-16 16:52:02 728

原创 pandas 计算指标/哑变量

import pandas as pd from pandas import * import numpy as np df = DataFrame({‘key’:[‘b’,’b’,’a’,’c’,’a’,’b’],’data1’:range(6)}) result = pd.get_dummies(df[‘key’],prefix=’key’) print(resul

2017-10-16 15:57:58 1521

CN2规则学习算法

这个文档详细介绍了如何通过算法自动学习规则,对于样本不太大的数据来说,用CN2可以快速学习规则,是一个不错的方法

2018-02-04

数据挖掘导论(完整版)

数据挖掘

2017-06-25

推荐系统实践

内容简介:, 随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载(information overload)的时代 。在这个时代,无论是信息消费者还是信息生产者都遇到了很大的挑战:对于信息消费者,从大量信息中找到自己感兴趣的信息是一件非常困难的事情;对于信息生产者,让自己生产的信息脱颖而出,受到广大用户的关注,也是一件非常困难的事情。推荐系统就是解决这一矛盾的重要工具。推荐系统的任务就是联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢。

2017-06-24

统计自然语言处理基础(中文版 带书签)

自然语言中文版

2017-06-23

numpy官方手册

numpy的介绍

2017-06-23

机器学习中的矩阵论

如果为了看懂机器学习,而速成矩阵论的话,这本书就是你要找的

2017-06-22

Python机器学习及实践从零开始通往Kaggle竞赛之路.pdf

机器学习 kaggle

2017-06-15

凸优化和机器学习.pdf

机器学习之凸优化

2017-06-15

机器学习实战-2.pdf

机器学习

2017-06-15

数学之美.pdf

数学之美

2017-06-15

斯坦福机器学习讲义(全)Stanford-Machine-Leaning.pdf

斯坦福机器学习讲义

2017-06-15

斯坦福机器学习讲义

2017-04-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除