Flying Warrior-CSDN博客

原创文献阅读-CSC-中文错别字-有关论文搜集-+CGED

2020:CYUT Team Chinese Grammatical Error DiagnosisSystem Report in NLPTEA-2020 CGED SharedTask.任务：中文语法错误诊断系统数据集：NLPTEA2020 CGED shared task方法：提出两个方法，第一个是CRF和BERT结合。第二个是CRF方法文章链接（科技部资助）...

2021-02-03 15:19:53 2481

Motivation：在很多地方都在讨论，句子级别和字符级别。这两者，在实际操作中到底有什么区别呢？通常来说，句子级别是[CLS] 或者字符级向量的avg max等等。或者说是一些特殊的组合。那这些向量到底有什么区别以及会带来多少信息上的不同。从本人角度来看，我更想知道的是，句子的向量是不是比字符的embedding有更多的句子层次的信息。虽然，暂时没有见到相关的讨论，但也有很多文章对该问题进行了说明。Sentence bert主要做的事情：实验说明了mean pooling的效果比较

2021-09-06 14:43:03 436

原创 Task01：概览西瓜书+南瓜书第1、2章（2天）

笔记参考和出处：《机器学习》周志华 Datawhale吃瓜教程重学机器学习，巩固基础数学推导知识。原笔记用Typora完成1 - 机器学习中的基本概念机器学习机器学习，致力于研究如何通过计算的手段, 利用经验来改善系统自身的性能.在计算机系统中，“经验”通常以“数据”形式存在。因此, 机器学习所研究的主要内容, 是关于在计算机上从数据中产生 “模型” (model) 的算法, 即 “学习算法”(learning algorithm).有了学习算法, 我们把经验数据提供给它, 它就

2021-08-17 19:08:34 308

原创文献阅读--Scaling Laws for Neural Lauguage Models

预印本2020https://arxiv.org/pdf/2001.08361.pdf做了什么：从实验上调查，语言模型loss和众多因素的关系，这些因素包括：模型架构，网络模型的size，用来训练的算力，可以用来train模型的有效的数据量。语言任务的high ceiling 和 low floor 导致可以有七个orders of magnitude in scale。结论的一个总结：模型的performance strongly depends on scale ( para-data-co

2021-06-12 17:35:11 2320 1

原创 2021 智源大会

为什么写？自己对大会内容的一个笔记，顺便帮助自己下一步选题扩宽角度作为一个组会报告将大会内容转述。（这就要求自己对于讲者所提到的东西不能只是一个感觉，而是有基本的准确理解，且能复述，且在论文内容可以进行进一步的探讨）大会内容放张图上来开个头从会议中，可以看到优秀的最新的工作，也可以看到优秀的人。后续可进行检索并学习。详尽的大会日程安排大致为（加粗为个人感兴趣的内容）：5-31：Tutorial-讲习班-分为四部分脉冲视觉情感认知前沿机器学习大规模预训练技术6-1(D1)：

2021-06-01 08:52:02 660 1

原创科研工具--论文-作者-影响力等-精准制导-检索网站

CS Ranking该网站下有使用教程。不仅仅是一个排名，还有相关linkhttp://csrankings.org/#/fromyear/2018/toyear/2021/index?nlp&cn谷歌学术-统计指标可以查看几乎所有领域的期刊和会议且有影响力排名一个显著性作用：可以查看ACL、EMNLP历史上引用数最大的相关文章...

2021-04-21 23:26:57 292

原创 AI周报-资讯&比赛-资料&框架-经典学习（一）

2021-4-9~4-12资讯&比赛CCL20215项技术评测任务跨领域句法分析：封闭领域规范的做的比较好了，跨领域不规范（网络文本）性能不好。中文空间语义理解：考察机器对语言中空间信息的认知能力智能医疗对话诊疗：赛道一：医患对话的理解-实体识别-试图识别-症状识别-医疗报告生成-赛道二：自动医疗诊断。图文多模态幽默识别：Meme（幽默图文组合）-幽默程度对比-幽默等级划分中译语通-Nihao无监督中文分词：无监督汉语分词涵盖：词法-句法-语义-语用AI 2000技术发展趋势国家

2021-04-09 16:10:03 197

原创 NLP领域国内外会议和期刊搜集

国际热门出版物来源：谷歌学术截止时间：2021年4月9日国内可投：国内自然语言处理和计算语言学的专业学会：中国中文信息学会-理事会成员中国计算机学会的自然语言处理专委会：自然语言处理专业委员会相关可投：机器学习和人工智能方向的出版物...

2021-04-09 14:57:24 1072

原创文献阅读-CSC-Confusionset-guided Pointer Networks for Chinese Spelling Check

Confusionset-guided Pointer Networks for Chinese Spelling Check作者：Tencent Cloud AI时间：2019年会议：ACL-2019论文地址简述：输入：数据集-正确句子-错误句子-location–混淆集-M怎么做：一个网络判断训练并判断哪个地方是错的-pointed-network，然后，正确的就赋值过去，错误的就在混淆集里面选，不过选的时候，因为seq2seq的encode是一个一个预测的，所以，这个时候，混淆集的选择，

2021-03-15 17:13:24 1129 5

原创文献阅读-图像-论文搜集

Transformer在CV论文搜集：《An Image Is Worth 16X16 Words: Transformers for Image Recognition at Scale》ICLR 2021 under reviewEnd-to-end object detection with transformersRethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Trans

2021-03-01 13:40:43 204 1

原创深度学习-卷积神经网络-nlper学卷积

Q1：卷积神经网络和神经网络分别是什么？DNN是指深度神经网络，它是一个很广的概念，某种意义上CNN、RNN、GAN等都属于其范畴之内。DNN与CNN（卷积神经网络）的区别是DNN特指全连接的神经元结构，并不包含卷积单元或是时间上的关联。DNN是指包含多个隐层的神经网络，根据神经元的特点，可以分为MLP、CNNs、RNNs等。从神经元的角度来讲解，MLP是最朴素的DNN，CNNs是encode了空间相关性的DNN，RNNs是encode进了时间相关性的DNN为什么会从神经网络到卷积神经网络？

2021-02-26 22:35:46 460

原创 Datawhale NLP实践-文本分类 Task01&Task02

模型配置等问题之前做实验基本都已进行代码中的两个问题is not none问题axis 低版本不可使用

2021-02-22 00:20:25 160

原创文献阅读笔记--GAN--Generative Adversarial NetworkGAN的原始论文-组会讲解

Generative Adversarial Network作者：Ian Goodfellow论文地址Arxiv：https://arxiv.org/abs/1406.2661统计公式一

2021-02-21 17:59:44 1159 1

原创文献阅读笔记-CSC-Chunk-based Chinese Spelling Check with Global Optimization-翻译+模型理解

摘要：CSC是一个有挑战性的任务，因为中文有许多独特的特点，比如：很大的字符集，没有词语边界，很短的词语长度。一方面：之前的工作只是考虑了相似的字符发音或者形状，不能够纠正视觉和发音上不相关的错别句。另一方面：各种pipeline-style 结构被广泛运用，这是十分难以优化的。为了解决这个问题，我们提出，1.用语义候选来扩充之前的混淆集合。2.提出一个基于块的结构去统一的纠正，单个字和多个字。3.运用一个全局最优策略去加强一个句子级别的纠正选择。（word:中文中的词，char：中文中的

2021-02-04 17:55:17 1215 4

转载 Python编程-模块学习

Python中Pickle模块的dump()方法和load()方法Python中的Pickle模块实现了基本的数据序列与反序列化。一、dump()方法pickle.dump(obj, file, [,protocol])注释：序列化对象，将对象obj保存到文件file中去。参数protocol是序列化模式，默认是0（ASCII协议，表示以文本的形式进行序列化），protocol的值还可以是1和2（1和2表示以二进制的形式进行序列化。其中，1是老式的二进制协议；2是新二进制协议）。file表示保存到的

2021-01-30 20:10:48 144

原创科研思考：关于ML-DL 算法的学习

前言之前一直觉得，一行一行的读懂《高等代数》《概率论与数理统计》是一个很牛逼的事情。我也一直是这么学这些内容，尝试从一个一个词一句一句话里去学习一个理论概念。但这个过程是痛苦且低效的（我一直觉得，这个过程应该是让你越学越开心的。）我觉得，数学理论是对细节严谨的，但绝不是拘泥于细节的。从许多细节积累然后学习一个数学理论怎么看都是不科学的。如何学习理论抓住重点自顶向下抽象这三点应该是数学学习的特点。抓住重点，我无需过多关注或者记忆某个理论的的条件和约束，更重要的是理解核心思想，有时候通

2021-01-29 11:10:12 187

原创科研工具：关于代码管理

对于一个数学专业出身的学生。在科研过程中，代码总是一个无法回避的问题。一方面习惯了用Matlab这样的工具小规模实现一个功能，另一方面确实没有过多的代码经验。导致我在项目试验中频频出错或者增大工作量。这次实验中，因为代码的问题多次导致实验的出现问题和延误实验时间。自己出现的问题。代码的分开管理。学会用import代码管理问题：经常需要面对的问题是，针对同一个任务，我们需要同时使用多个模型做多种实验，并在同一个模型上进行多种尝试，在这一过程中，如果不注意管理，就会导致代码越来越乱，文件夹越来越

2021-01-28 20:58:41 228

原创文献阅读笔记-CSC-数据集-A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check

A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check 文献阅读笔记一、做了什么和怎么做的（很简单）初读的理解：这篇论文做的事情，就是给CSC任务提供数据，做了一个该任务下的数据生成。做法：大量无标注数据，根据形近似和音近似两个方面来替换其中的一部分字符。形近：把一个字转化为图片，把图片模糊一部分，用OCR对她进行扫描，选出识别错误的，去进行替换。音近：收集普通话演讲语料和演讲，用ASR对演讲进行

2021-01-27 09:49:49 2228 5

原创 Task 5 Neo4j 图数据库查询

Task 5 Neo4j 图数据库查询事实证明，可以在移动端完全实现整个项目，neo4j的sandbox版本和colab作为Python端口，需要一个google drive作为一个存储区，来存放文件。主要学习：AnswerSearching 框架介绍

2021-01-17 23:14:21 198

原创 Task 4 用户输入-＞知识库的查询语句

Task 4 用户输入->知识库的查询语句继续参考

2021-01-15 23:11:04 260

原创 Datawhale 知识图谱组队学习之 Task 3 Neo4j图数据库导入数据

Task 3 Neo4j图数据库导入数据填坑睡觉，明天要做今天写毕设开题和论文。还有，sandbox确实可以用前面的步骤对数学生太不友好了。

2021-01-14 00:17:17 178 1

原创 fantastic-matplotlib:案例集合：

画四个指标的learning curve# -*- coding: utf-8 -*-"""Created on Sat Dec 5 09:42:05 2020@author: 姜金"""import matplotlib.pyplot as pltimport numpy as npimport matplotlib.gridspec as gridspecfrom matplotlib.ticker import FuncFormatterdef to_percent(tem

2021-01-13 10:55:20 255

原创 fantastic-matplotlib:问题集合

Q：在nlp中画 learning curve，需要横坐标为10%…100%，如何在横坐标上画这样的一个过程。展示部分实验代码：import matplotlib.pyplot as pltimport numpy as npimport matplotlib.gridspec as gridspecimport matplotlib.font_manager as fm #字体管理器from matplotlib.ticker import FuncFormatterdef to_

2021-01-13 09:57:18 255

原创 K折交叉验证（K-fold cross-validation)

K折交叉验证（K-fold cross-validation)概念：原始训练数据集分割成 k 个不重合的子数据集，然后我们做 k 次模型训练和验证。每一次，我们使用一个子数据集验证模型，并使用其他 k−1 个子数据集来训练模型。在这 k 次训练和验证中，每次用来验证模型的子数据集都不同。最后，我们对这 k 次训练误差和验证误差分别求平均。参考：https://d2l.ai/chapter_multilayer-perceptrons/kaggle-house-price.htmlQ：为什么我们在深

2021-01-13 09:46:47 1429

weixin_43481320的博客