自然语言处理
文章平均质量分 62
清风醉雨
莫忘少年凌云志,曾许天下第一流。
展开
-
利用Python实现中文转拼音
##两种方式###SnowNLP####安装pip install snownlp####Demo>>> from snownlp import SnowNLP>>> s = SnowNLP(u'一次满意的购物')>>> s.pinyin['yi', 'ci', 'man', 'yi', 'de', 'gou', 'wu']###pypinyin####安装pip install pypinyin####Demo>原创 2021-09-22 23:59:04 · 581 阅读 · 0 评论 -
安装spacy遇到的问题
在Windows 10 和 Ubuntu 16.04 环境下安装 spacy ,运行的命令是 pip install spacy, 在安装的过程中都遇到了这个问题,报错信息如下:Cannot uninstall ‘cytoolz’. It is a distutils installed project and thus we cannot accurately determine which files belong to it which would lead to only a partial u原创 2021-09-22 23:28:48 · 492 阅读 · 0 评论 -
国际语义评测大会SemEval-2014 Task 4 任务详解
最近在调研 Aspect Based Sentiment Analysis (ABSA) 方面的论文,非常有必要先搞清楚这个评测任务的游戏规则到底是什么。首先我们要知道, SemEval-2014 的 Task 4 是对 ABSA 任务进行评测的,其下面又细分了 4 个子任务。Subtask 1:Aspect term extraction这个任务是干什么的呢,简单地说就是提取句子中的情感实体或者说情感对象。例如下面这个例子:I liked the service and the staff, bu原创 2021-09-15 09:25:55 · 2629 阅读 · 0 评论 -
BERT 中文预训练模型使用札记
只要是从事文本处理相关工作的人应该都知道 Google 最新发布的 BERT 模型,该模型属于是词向量的预训练模型,一经提出便横扫各大 NLP 任务,最近 Google 公司如约推出了中文词向量的预训练模型,不得不说这是一件非常有良心的事情,在此膜拜和感谢 Google 公司。那么如何使用 bert 的中文预训练好的词向量呢?前两天看见 paperweekly 推送的一篇文章,叫做是 两行代码玩转 Google BERT 句向量词向量 ,文章提出的方法是将 bert-as-service 作为公共基础设施原创 2021-09-15 09:23:05 · 790 阅读 · 0 评论 -
用word2vec解读延禧攻略人物关系
原文来自公众号 无界社区mixlab 链接如下:https://mp.weixin.qq.com/s/zRqt9OL6G1s3UZY1AJR9ag关系图谱地址 https://shadowcz007.github.io/text2kg/本文是对原文进行的复现,现将具体的实现过程记录如下。#####一. 语料准备延禧攻略剧本延禧攻略小说剧中人物名称######1.爬取延禧攻略剧本要获取原始语料的通用办法就是利用爬虫技术对相应的内容进行爬取,由于本次爬取的内容比较简单,不需要考虑网址去.原创 2021-09-15 09:22:07 · 348 阅读 · 0 评论 -
用QQ聊天记录生成一个词云
####问题与思路在了解了 Python 可以制作词云图后便想利用它来做点什么,于是便决定将自己和女朋友的聊天记录导出来做一个词云图看看。QQ的聊天记录可以通过消息管理器导出为 .txt 格式,具体的操作不再赘述。本文的分词工具采用的是 jieba 分词。####系统环境说明本文的实验环境是 Python 3.6.1 |Anaconda 4.4.0 (64-bit),Win10####依赖包jieba 、wordcloud 、PIL##原创 2021-09-15 09:18:10 · 6867 阅读 · 12 评论 -
在本地安装使用-LTP
1. 在本地安装 pyltp本机是 python3.x 环境,使用 pip 包管理器进行安装。在 cmd 命令行输入如下命令即可。pip install pyltp报错:error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools解决办法:直接去对应的网址下载原创 2021-09-15 09:17:06 · 872 阅读 · 0 评论 -
在线使用-LTP-札记
语言技术平台 LTP 由哈工大社会计算与信息检索研究中心 研发,提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、高效、精准的自然语言处理技术。在2014年11月,哈工大联合科大讯飞公司推出“哈工大-讯飞语言云”,提供网络接入的语言云服务。####在线使用 LTP-Cloud官网API https://www.ltp-cloud.com/document/#api_rest_style我主要是用到python进行调用,但是官方文档里面给的 demo 用的是 python2.原创 2021-09-15 09:16:27 · 357 阅读 · 0 评论 -
命名实体识别评估指标
对命名实体识别系统的发展来说,对系统的全面评估是必不可少的, 许多系统被要求根据它们标注文本的能力来对系统进行排序。目前,通常采用的评估指标主要有正确率、召回率和F值,它们的定义如下:正确率 = 识别出的正确实体数 / 识别出的实体数召回率 = 识别出的正确实体数 / 样本的实体数两者的取值都在 0 和 1 之间,数值越接近1,正确率或召回率就越高。正确率和召回率有时会出现矛盾的情况,这是需要综合考原创 2017-10-12 14:38:01 · 11875 阅读 · 0 评论