NLP
文章平均质量分 92
灬CHAIN灬
这个作者很懒,什么都没留下…
展开
-
XML文档解析
xml.dom1 xml.dom的简单介绍1.1 DOM节点树1.2 父、子和同级节点1.1主要方法1 xml.dom的简单介绍XML DOM 是:用于 XML 的标准对象模型用于 XML 的标准编程接口中立于平台和语言W3C 的标准XML DOM 定义了所有 XML 元素的对象和属性,以及访问它们的方法(接口)。换句话说:XML DOM 是用于获取、更改、添加或删除 XML 元素的标准。1.1 DOM节点树XML DOM 把 XML 文档视为一种树结构。这种树结构被称为节点树。原创 2021-03-16 11:54:59 · 188 阅读 · 0 评论 -
ChineseGLUE:为中文NLP模型定制的自然语言理解基准
引用:https://www.cnblogs.com/demo-deng/p/12411760.html项目地址:https://github.com/chineseGLUE/chineseGLUEChineseGLUE 是一个中文语言理解测评基准,思路源于 GLUE,包括:1)中文任务的基准测试,覆盖多个不同程度的语言任务一个包含若干句子或句子对语言理解任务的基准。当前,这些任务中使用的数据集是公开的,2019 年底前将收录具备私有测试集的数据集。2)公开的排行榜一个用于性能跟踪的公开排行转载 2020-08-12 00:08:19 · 430 阅读 · 0 评论 -
jieba学习笔记
目录简介算法功能1:分词功能2:添加自定义词典功能3:关键词提取1)基于TF-IDF的关键词提取2)基于TextRank的关键词抽取功能4:词性标注功能5:并行分词功能6:返回词语在原文的起始位置简介jieba 是目前最好的 Python 中文分词组件,它主要有以下 3 种特性:1.支持 3 种分词模式:1) 精确模式:试图将句子最精确地切开,适合文本分析;2) 全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;3) 搜索引擎模式:在精确模式的基础上,对长词再次切分原创 2020-07-13 18:51:03 · 382 阅读 · 0 评论 -
《用Python进行自然语言处理》笔记2
计算语言:简单的统计一、频率分布⑴ FreqDist(test)将文本名称作为参数,形成字典,得到每个标识符的频率分布>>> fd1=FreqDist(text1)>>> fd1FreqDist({',': 18713, 'the': 13721, '.': 6862, 'of': 6536, 'and': 6024, 'a': 4569, 'to': 4542, ';': 4072, 'in': 3916, 'that': 2982, ...})&原创 2020-07-05 17:12:02 · 346 阅读 · 0 评论 -
《用Python进行自然语言处理》笔记1
一、首先安装NLTK:NLTK提供可以访问语料库和词汇资源(如WordNet)的接口,还有一套用于分类、标记化、词干标记、解析和语义推理的文本处理库。*1.利用python解释器:import nltknltk.download()2.官网下载压缩包并解压到Download Directory中:二、简单的使用1.数据的导入>>>from nltk.book import * //从nltk的book模块加载所有需要的数据*text1: Mob原创 2020-07-02 13:19:44 · 224 阅读 · 0 评论