- 博客(8)
- 收藏
- 关注
原创 leetcode刷题汇总
日期 题目 题目大意 解题方法 题目难度 2019/2/26 207. Course Schedule 判断是否为有向无环图(DAG) 方法1:拓扑排序 方法2:DFS medium ...
2019-02-26 15:06:48
224
原创 命名实体识别【代码解析】
命名实体识别的学习代码选择的是github上star最多的代码:A very simple BiLSTM-CRF model for Chinese Named Entity Recognition 中文命名实体识别 (TensorFlow)。 这也算是学习的第一个大点儿的tf项目吧。 配合源码作者的博客BiLSTM-CRF模型做基于字的中文命名实体识别 模型如下图。...
2018-12-17 14:55:18
4962
2
原创 命名实体识别(Named Entity Recognition,NER)
命名实体识别(Named Entity Recognition,NER)属于NLP中一个关键性基础任务,概念从字面意思上就可以理解,即识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。 从早期基于词典和规则的方法,到传统机器学习的方法,到近年来基于深度学习的方法,NER研究进展的大概趋势大致如下图所示。 在基于机器学习的方法中,NER被当作序列标注问题。利...
2018-12-13 16:23:48
4042
原创 《LCSTS: A Large Scale Chinese Short Text Summarization Dataset》
LCSTS 数据集的构建给中文文本摘要的研究奠定了基础,LCSTS数据集中包含了200万真实的中文短文本数据和每个文本作者给出的摘要。同时作者团队也手动标注了10666份文本的摘要。 一、数据来源 首先,数据来源主要是微博爬虫,数据收集的策略很类似pageRank思想。先找50个流行的官方组织用户作为种子然后从种子用户中抓取他们关注的用户,并且将不是大V,且粉丝少于100万的用户过...
2018-12-12 17:33:05
4260
转载 Lightgbm参数说明
Lightgbm是基于决策树的分布式梯度提升框架,以选取最大信息增益作为特征选择的目标。 它主要的参数有 【转自lightgbm参数说明】关于lightgbm params的说明task = train #配置目标是用于训练boosting_type = gbdt # 训练方式objective = binary #目标:二分类metric = b...
2018-07-11 11:34:32
3265
转载 pandas的drop函数
删除表中的某一行或者某一列方法——使用drop函数,它不改变原有的df中的数据,而是返回另一个DataFrame来存放删除后的数据。本文引用自博客“python进行数据处理——pandas的drop函数”。 清理无效数据df[df.isnull()] #返回的是个true或false的Series对象(掩码对象),进而筛选出我们需要的特定数据。df[df.notnull()]...
2018-07-11 10:06:48
2178
转载 Python heapq模块 (堆)
这个模块实现了堆的数据结构。参考(浅析Python heapq模块 堆数据结构) 堆是一种特殊的树形数据结构,每个节点都有一个值,通常我们所说的堆的数据结构指的是 二叉树。 堆的特点是 根节点的值最大(或者最小),而且根节点的两个孩子也能与孩子节点组成子树。堆分为两种,大根堆和小根堆(前提是二叉堆都可以看成一颗完全二叉树)。如下图所示: Python heapq模...
2018-07-09 13:53:49
483
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人