自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

转载 词向量实践(gensim)

词向量训练步骤:分词并去停用词词频过滤训练项目完整地址:https://github.com/cyandn/practice/tree/master/Word2Vecgensim中Word2Vec参数解释:主要参数介绍如下:sentences:我们要分析的语料,可以是一个列表,或者从文件中遍历读出(word2vec.LineSent...

2019-07-14 23:31:00 594

转载 文本分类(TextCNN,Keras)

数据集是网上找的,已上传至我的 Github,项目完整地址:https://github.com/cyandn/practice/tree/master/text-classification流程:加载数据集,去停用词使用 Keras 的Tokenizer 将每一文本用数字表示创建 TextCNN 模型,训练并预测在 1080Ti 上batch...

2019-07-08 00:26:00 154

转载 TF-IDF算法简析

TF-IDF算法可用来提取文档的关键词,关键词在文本聚类、文本分类、文献检索、自动文摘等方面有着重要应用。算法原理TF:Term Frequency,词频IDF:Inverse Document Frequency,逆文档频率词频(TF):某一个词在该文件中出现的频率计算方法为:逆文档频率(IDF):总文件数目除以包含该词的文件数目...

2019-07-01 00:42:00 201

转载 NER(BiLSTM+CRF,Keras)

数据集为玻森命名实体数据。目前代码流程跑通了,后续再进行优化。项目地址:https://github.com/cyandn/practice/tree/master/NER步骤:数据预处理:def data_process(): zh_punctuation = [',', '。', '?', ';', '!', '……'] w...

2019-06-24 01:04:00 160

转载 fp-growth代码问题(Python)

网上的 python3fp-growth代码每次在执行时可能会出现找出的频繁项集不一致的情况,这是因为每次执行代码时建的FP树可能不一致。加了一行代码可以解决这个问题(第59行):先对frequentItemsInRecord 按 key 的ASSIC码排序,然后再按照 key 的支持度(即value值)降序排列。之所以这么做是因为frequentItemsIn...

2019-06-09 20:15:00 221

转载 读书笔记:关系抽取和事件抽取

读完赵军主编的《知识图谱》第六章和第七章,对关系抽取和事件抽取简单做一下笔记。关系抽取定义:自动识别实体之间具有的某种语义关系。根据参与实体的多少可以分为二元关系抽取(两个实体)和多元关系抽取(三个及以上实体)。通过关注两个实体间的语义关系,可以得到(arg1, relation, arg2)三元组,其中arg1和arg2表示两个实体,relation表示实...

2019-05-26 22:36:00 1001

转载 基于统计的中文实体识别方法简述

命名实体识别(NER)是自然语言处理的一个基础任务,其目的是识别出语料中的人名、地名、组织机构名等命名实体,一般包括三大类(实体类、时间类和数字类)和七小类(人名、地名、机构名、时间、日期、货币和百分比)。NER是信息抽取、机器翻译、知识图谱等多种自然语言处理任务必不可少的组成部分。NER方法大致可分为两类:基于规则的方法和基于统计的方法。基于规则的方法多采用语言学家手工构造规...

2019-05-20 00:06:00 426

转载 中文分词概述及结巴分词原理

词是中文表达语义的最小单位,自然语言处理的基础步骤就是分词,分词的结果对中文信息处理至为关键。本文先对中文分词方法进行一下概述,然后简单讲解一下结巴分词背后的原理。中文分词概述简单来说,中文分词根据实现特点大致可分为两个类别:基于词典的分词方法、基于统计的分词方法。基于词典的分词方法基于词典的分词方法首先会建立一个充分大的词典,然后依据一定...

2019-05-19 23:58:00 559

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除