sigmeta的博客

Good good study, day day up

自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

使用NLTK对英文文章分句,避免缩略词标点符号干扰

对于英文语料,我们想要获得句子时,可以通过正则或者NLTK工具切分。例如,NLTK: from nltk.tokenize import sent_tokenize document='' sentences=sent_tokenize(document) NLTK会根据“.?!”等符号切...

2019-06-10 11:45:43

阅读数 107

评论数 0

Wikipedia corpus英文语料处理,获得原文

我们在预训练word vector或其他预训练任务时,需要大量的语料数据,Wikipedia开放了英文语料,大约11G:wiki英文语料下载链接 该语料库是.bz2格式,但是不能直接解压,需要使用工具处理,我们介绍两种常用的处理工具,gensim和wikiextractor。 Gensim ...

2019-06-10 11:34:28

阅读数 83

评论数 0

windows下安装使用fairseq框架

最近,Facebook又开源了fairseq的PyTorch版:fairseq-py。大家从最新的文章可以看出,用CNN来做机器翻译,达到顶尖的准确率,速度则是RNN的9倍;同时,Facebook还开放了seq2seq学习工具包fairseq的Torch源代码和已训练的系统。 fairseq-p...

2019-01-07 21:56:36

阅读数 623

评论数 0

QANet 论文笔记

QANet 论文笔记 文章目录QANet 论文笔记摘要简介模型1. Input embedding layerword embeddingcharacter embedding2. Embedding encoder layer(1) position encoding(2) depthwi...

2018-12-04 17:54:47

阅读数 352

评论数 0

Attention Is All You Need 论文笔记

Attention Is All You Need 论文笔记 本文主要讲述Self-Attention机制+Transformer模型。自己看过论文与其他人文章的总结,不是对论文的完整翻译。 论文原文翻译可看这篇,翻译质量还可以。 关于Attention的讲解可以看这里:Visual...

2018-12-04 16:26:35

阅读数 978

评论数 1

unable to execute 'x86_64-conda_cos6-linux-gnu-gcc': No such file or directory 问题解决

在linux上(python3)安装fasttext时,遇到以下编译错误: unable to execute 'x86_64-conda_cos6-linux-gnu-gcc': No such file or directory error: command 'x86_64-conda_c...

2018-11-21 17:48:04

阅读数 2045

评论数 0

分解机(Factorization Machines)推荐算法原理

  对于分解机(Factorization Machines,FM)推荐算法原理,本来想自己单独写一篇的。但是看到peghoty写的FM不光简单易懂,而且排版也非常好,因此转载过来,自己就不再单独写FM了。 ...

2018-11-19 16:41:22

阅读数 173

评论数 0

最大熵马尔可夫模型MEMM

信息与熵 熵(信息熵)可被认为是系统不确定性(混乱程度)的度量,熵值越大,系统越混乱。 一个X值域为{x1, ..., xn}的随机变量的熵值H定义为: 其中,E 代表了期望函数,而I(X)是X的信息量(又称为信息本体),熵是随机变量的各值域概率及其信息量积的加总。 信息量是用来衡量...

2018-11-02 11:25:17

阅读数 89

评论数 0

RNN & LSTM 网络结构及应用

http://www.jianshu.com/p/f3bde26febed/ 这篇是 The Unreasonable Effectiveness of Recurrent Neural Networks(by Andrej Karpathy,Stanford的Li Fei-Fei的博士生。文...

2018-10-09 23:30:35

阅读数 380

评论数 0

使用SimHash进行海量文本去重

阅读目录1. SimHash与传统hash函数的区别2. SimHash算法思想3. SimHash流程实现4. SimHash签名距离计算5. SimHash存储和索引6. SimHash存储和索引7. 参考内容  在之前的两篇博文分别介绍了常用的hash方法([Data Structure &...

2018-07-13 15:12:14

阅读数 724

评论数 0

【数据挖掘学习笔记】12.复杂类型数据挖掘

一、模糊挖掘不确定性挖掘方法——模糊挖掘– 基于概率– 基于粗糙集– 基于模糊集模糊集的表示(1)Zadeh表示法(2)序偶表示法(3)向量表示法模糊集运算定义:设A,B是论域U的两个模糊子集,定义模糊统计法模糊矩阵定义:设 R = (rij)m×n ,0 ≤ rij ≤ 1,称R为模糊矩阵。当 ...

2018-07-07 03:20:01

阅读数 1709

评论数 0

scrapy爬虫遇到相对路径问题的解决

网站中很多链接用的是相对路径,直接爬取会产生报错:Missing scheme in request url: ../index.html在python3中使用from urllib.parse import urljoin>>> ...

2018-07-06 14:36:42

阅读数 1402

评论数 0

【数据挖掘学习笔记】11.频繁模式挖掘进阶与关联规则

一、关联规则关联规则步骤:– 1、找个这个“同一项集”,相同的项集对应的规则有相同的支持度,找到支持度≥minsup的项集– 2、计算项集中所有规则的置信度,找到置信度≥minconf的规则由频繁项集生成关联规则生成关联规则– 给定频繁项集L,找出L的所有非空子集f,满足f →L–f 的置信度不小...

2018-07-04 00:05:59

阅读数 703

评论数 0

【数据挖掘学习笔记】10.频繁模式挖掘基础

一、基本概念频繁模式– 频繁的出现在数据集中的模式– 项集、子序或者子结构动机– 发现数据中蕴含的事物的内在规律• 项(Item) – 最小的处理单位 – 例如:Bread, Milk• 事务(Transaction) – 由事务号和项集组成 – 例如:<1, {Bread,...

2018-07-03 23:44:18

阅读数 1929

评论数 0

随机森林算法学习(RandomForest)

随机森林算法学习最近在做kaggle的时候,发现随机森林这个算法在分类问题上效果十分的好,大多数情况下效果远要比svm,log回归,knn等算法效果好。因此想琢磨琢磨这个算法的原理。要学随机森林,首先先简单介绍一下集成学习方法和决策树算法。下文仅对该两种方法做简单介绍(具体学习推荐看统计学习方法的...

2018-06-26 13:03:03

阅读数 364

评论数 0

【数据挖掘学习笔记】9.高级聚类方法

一、密度聚类基于距离的方法– 适用于发现类球状的簇– 在交通等领域,非球状簇的挖掘效果较差– 判断是否“聚”的依据不仅仅有距离基于密度进行聚类的思想– 发现“密”的区域– 判断密的区域的连通性– DBSCAN(Density-Based Spatial Clustering of Applicat...

2018-06-23 23:16:13

阅读数 451

评论数 0

【数据挖掘学习笔记】8.聚类基础

一、聚类分析基础什么是聚类分析?– 将物理或抽象对象的集合分成相似的对象类的过程称为聚类– 在同一个聚类(簇)中的对象彼此相似– 不同簇中的对象则相异聚类分析的作用– 分类是人类认知世界的重要活动– 区分不同类依靠类的特征– 找出标识分类的特征,以区分不同的类典型应用– Marketing– 图像...

2018-06-23 21:30:55

阅读数 441

评论数 0

【数据挖掘学习笔记】7.决策树与链接分析

一、决策树决策树– 提供了一种展示类似在什么条件下会得到什么值这类规则的方法– 每个分支要么是一个新的决策节点,要么是树的叶子。在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程,利用...

2018-06-23 18:31:58

阅读数 465

评论数 0

【数据挖掘学习笔记】6.随机过程与抽样

一、马尔可夫模型马尔可夫性(无后效性)– 过程(或系统)“将来”的情况与“过去”的情况无关,则成过程(或系统)具有马尔可夫性– 具有马尔可夫性的随机过程称为马尔可夫过程– 时间和状态都是离散的马尔可夫过程称为马尔可夫链转移概率称条件概率为马氏链在时刻m处于状态ai条件下,在时刻m+n转移到状态aj...

2018-06-23 01:21:36

阅读数 1254

评论数 0

【数据挖掘学习笔记】5.分类基础

一、特征与分类特征作用数据库通常存放大量的细节数据。然而,用户通常希望以简洁的描述形式观察汇总的数据集提供一类数据的概貌,或将它与对比类相区别方便、灵活地以不同的粒度和从不同的角度描述数据集概念描述方法 数据泛化 解析特征 挖掘类比较数据泛化数据泛化是一个过程,它将大的、任务相关的数据集从较低的概...

2018-06-22 22:34:34

阅读数 1153

评论数 0