![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 69
宁缺100
迈出的步伐不非得很大,只要你是在往正确的方向前行就行
展开
-
情感分析相关汇总
文章目录情感分析语音情感识别句子or文档级别情感分析情感词汇字典大连理工大学中文情感词汇本体中文金融情感词典金融社交媒体数据应用的市场情绪词典中文情感分析常用词典台湾大学NTUSD简体中文情感词典BosonNLPABSA细腻度情感分析相关比赛【千言情感分析】SKEP句子级情感分析相关博客或者论文中文情感分析 (Sentiment Analysis) 的难点在哪?现在做得比较好的有哪几家?文本挖掘在商品评论中的应用研究——以烟草评论为例Twitter数据挖掘及其可视化电子邮件情感分析机器人-stanford原创 2022-05-26 17:35:54 · 1808 阅读 · 0 评论 -
kaldi_关于数据预处理
kaldi关于数据预处理基本数据四个预处理文件wav.scp 每条语音的 ID 及其存储路径wav_id(音频id)wav_path(文件路径)sen_1/home/kaldi/data/sen_1.wavsen_2/home/kaldi/data/sen_2.wavtext 每条语音的 ID 及其对应文本wav_id(音频id)text(文本)sen_1中国共产党成立100周年utt2spk 每条语音的 ID 及其说话原创 2021-10-30 11:29:33 · 635 阅读 · 0 评论 -
开源向量数据库--milvus
Milvus 是一款开源的向量相似度搜索引擎,支持针对 TB 级向量的增删改操作和近实时查询,具有高度灵活、稳定可靠以及高速查询等特点。Milvus 集成了 Faiss、NMSLIB、Annoy 等广泛应用的向量索引库,提供了一整套简单直观的 API,让你可以针对不同场景选择不同的索引类型。此外,Milvus 还可以对标量数据进行过滤,进一步提高了召回率,增强了搜索的灵活性。特性异构计算优化了基于 GPU 搜索向量和建立索引的性能可以在单台通用服务器上完成对 TB 级数据的毫秒级搜索动态.原创 2021-04-11 16:39:18 · 1954 阅读 · 0 评论 -
Neo4J 介绍、安装以及使用(附带示例)
Neo4J 介绍与安装知识图谱由于其数据包含实体、属性、关系等,常见的关系型数据库诸如MySQL之类不能很好的体现数据的这些特点,因此知识图谱数据的存储一般是采用图数据库(Graph Databases)。而Neo4j是其中最为常见的图数据库。在Mac或者Linux中,安装好jdk后,直接解压下载好的Neo4J包,运行命令 bin/neo4j startwindows系统下载好neo4j和jdk 1.8.0后,输入以下命令启动后neo4j neo4j.bat consoleNe原创 2021-03-21 21:03:46 · 2295 阅读 · 1 评论 -
Python调用电脑麦克风录音
Python 调用电脑麦克风录音原创 2020-10-07 16:05:12 · 8245 阅读 · 2 评论 -
RoBERTa
RoBERTa模型是在RoBERTa中提出的:一种经过严格优化的BERT预训练方法, 由Yinhan Liu,Myle Ott,Naman Goyal,Dujingfei,Mandar Joshi,Danqi Chen,Omer Levy,Mike Lewis,Luke Zettlemoyer,Veselin Stoyanov提出。它基于2018年发布的Google BERT模型。它建立在BER...原创 2020-04-25 22:16:26 · 2996 阅读 · 0 评论 -
huggingface tokenizers
专注 NLP 的初创团队抱抱脸(hugging face)发布帮助自然语言处理过程中,更快的词语切分(tokenization)工具:Tokenizers —— 只要 20 秒就能编码 1GB 文本。功能多样:适用于 BPE / byte-level-BPE / WordPiece / SentencePiece 各种 NLP 处理模型可以完成所有的预处理:截断(Truncate)、...原创 2020-04-21 19:48:09 · 2997 阅读 · 0 评论 -
开源语音数据集
开源语音数据集英文数据集:LibriSpeech ASR corpus:该数据集是包含大约1000小时的英语语音的大型语料库。这些数据来自LibriVox项目的有声读物。它已被分割并正确对齐,如果你正在寻找一个起点,请查看已准备好的声学模型,这些模型在kaldi-asr.org和语言模型上进行了训练,适合评估。https://www.openslr.org/12Mini Libri...原创 2020-04-21 19:46:45 · 832 阅读 · 0 评论 -
隐马尔科夫和端到端网络
@TOC欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全...原创 2020-04-02 22:04:17 · 185 阅读 · 0 评论 -
词嵌入
概要词嵌入是单词的一种数值化表示方式,一般情况下会将一个单词映射到一个高维的向量中(词向量)来代表这个单词。例如我们将: 机器学习’表示为 [1,2,3]词向量可以用余弦相似度来计算单词之间的距离余弦相似度词嵌入词嵌入实际上是一种将各个单词在预定的向量空间中表示为实值向量的一类技术。每个单词被映射成一个向量(初始随机化),并且这个向量可以通过神经网络的方式来学习更新。因此这项技术基...原创 2020-03-22 13:47:02 · 401 阅读 · 0 评论 -
朴素贝叶斯算法
分类,概率统计条件概率事件A在事件B发生的条件下的概率P(A∣B)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)}P(A∣B)=P(B)P(AB)2.乘法公式P(AB)=P(B)P(A|B)=P(A)P(B|A)n>=2p(A_1A_2**A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)...P(A_n|A_1A_2.....原创 2019-04-22 23:56:13 · 162 阅读 · 0 评论