自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 马尔科夫与隐马尔可夫总结

马尔可夫链(Markov Chain),描述了一种状态序列,其每个状态值取决于前面有限个状态。如果对于过去状态的条件概率分布仅是的一个函数,则在给定当前知识或信息的情况下,过去(即当前以前的历史状态)对于预测将来(即当前以后的未来状态)是无关的。

2017-08-04 08:59:32 6053

原创 nltk中文语料库使用总结

[BracketParseCorpusReader]from nltk.corpus import BracketParseCorpusReadercorpus_root =r"F:\nltk_data\corpora\SogouC.reduced.20061127\SogouC.reduced\Reduced" # r"" 防止转义file_pattern = r".

2017-07-28 16:29:49 2156

原创 nltk主要应用总结

获取和处理语料库 nltk.corpus 语料库和词典的标准化接口字符串处理 nltk.tokenize, nltk.stem 分词,句子分解提取主干搭配发现 nltk.collocations t-检验,卡方,点互信息 PMI词性标识符 nltk.tag n-gram,backoff,Brill,HMM,TnT分类 nltk.classify, nltk.cluster

2017-07-27 15:15:23 1738

原创 聚类总结

聚类,就是将相似的事物聚集在一 起,而将不相似的事物划分到不同的类别的过程。average-linkage算法比较稳定,可以大致地判断聚类数目,聚类效果也不错,在数据量比较小的时候可以使用。K-means是最为常用的聚类方法之一,有着一个很关键的优点:快.K-means迭代地进行两步操作。首先随机地给出k个中心的位置,然后把每个数据点归类到离它最近的中心,构造了k个cluste

2017-07-27 10:43:44 382

转载 n-gram

该模型第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。       对于一个句子T,我们怎么算它出现的概率呢?假设T是由词序列W1,W2,W3,…Wn组成的,那么P(T)=P(W1W2W3Wn)=P(W1)P(W2|W

2017-07-26 10:03:51 600

转载 依存语法:从短语结构树转换为依存树

 与短语结构语法比较起来,依存语法没有词组这个层次,每一个结点都与句子中的单词相对应,它能直接处理句子中词与词之间的关系,而结点数目大大减少了,便于直接标注词性,具有简明清晰的长处。特别在语料库文本的自动标注中,使用起来比短语结构语法方便。一般而言,短语结构语法是与依存语法等价的。因此,如果我们在短语结构分析之后得到了短语结构树,可以自动地把这样的短语结构树转换为依存树。例如,

2017-07-25 10:53:32 2575

转载 LSTM+CRF介绍

LSTM和CRF要解决问题的:序列标注问题(中文分词、词性识别、命名实体识别、机器翻译等)本文先介绍LSTM的基本结构,再介绍LSTM与CRF结合的方法(CRF的具体算法介绍不包括在本文中)。LSTM是RNN的一种特殊形式,首先看一下RNN单元的基本结构定义:简单解释一下,RNN其实是希望能模拟人类大脑处理信息的方式,人类的大脑所接收的信号可以分为外部(即我们的感知,视觉、听觉

2017-07-21 16:26:27 20532 1

转载 TensorFlow练习1: 对评论进行分类

# python3import numpy as npimport tensorflow as tfimport randomimport picklefrom collections import Counterimport nltkfrom nltk.tokenize import word_tokenize"""'I'm super man't

2017-07-17 15:01:52 381

原创 arraylist vector linkedlist

ArrayList是为可变数组实现的,当更多的元素添加到ArrayList的时候,它的大小会动态增大。它的元素可以通过get/set方法直接访问,因为ArrayList本质上是一个数组。LinkedList是为双向链表实现的,添加、删除元素的性能比ArrayList好,但是get/set元素的性能较差。Vector与ArrayList相似,但是它是同步的。大部分程序员都使用Arra

2017-07-06 16:26:38 219

转载 Servlet的运行过程

Servlet程序是由WEB服务器调用,web服务器收到客户端的Servlet访问请求后:  ①Web服务器首先检查是否已经装载并创建了该Servlet的实例对象。如果是,则直接执行第④步,否则,执行第②步。  ②装载并创建该Servlet的一个实例对象。   ③调用Servlet实例对象的init()方法。  ④创建一个用于封装HTTP请求消息的HttpServletRequ

2017-07-05 11:06:58 337

原创 JavaSE servlet

简单记录一下

2017-07-05 10:53:51 565

转载 word2vec

word2vec 看的这个入的门 感觉师兄师姐在介绍的时候也会用到这些。http://blog.csdn.net/zhoubl668/article/details/24314769word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。一、理论概述(主要来源于http://licsta

2017-07-04 14:55:23 293

转载 lstm——keras

最初看的就是这个 感觉写的很清楚也很容易上手

2017-07-04 11:45:43 977

转载 机器学习十大常用算法

最近找工作,需要整理一下之前看过的内容。把之前会的都整理概括一下也方便自己以后再看

2017-07-04 11:20:09 232

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除