呆呆有库-CSDN博客

原创 Linux 之 awk命令详解

我们可以在awk脚本中定义自己的函数。之后我们掌握其各种功能可以大大提高我们处理结构化文本数据的效率。

2024-07-19 17:03:34 489 3

原创 Linux 之 grep命令详解

grep命令是一个功能强大的文本搜索工具，掌握其各种选项和用法可以大大提高我们处理文本文件的效率。希望这篇文章能帮助你更好地理解和使用grep命令。

2024-07-19 16:51:11 485 1

原创 Docker创建网络桥段并配置

docker run -itd -p 5006:5006 --name 镜像名 nlp_yinqing:latest env LANG="zh_CN.UTF-8" /bin/bash。出现报错：docker: Error response from daemon: network bridge not found.这样的话，就是Docker 中没有网络桥段了，需要自己配置一个。

2024-03-08 11:21:36 388 1

原创 pandas（本人复习记录）

个人学习内容整理，代码块中很详细

2022-10-21 18:12:36 413 1

原创 numpy入门教程

(内附代码)NumPy是Python中科学计算的基础包。它是一个Python库，提供多维数组对象，各种派生对象（如掩码数组和矩阵），以及用于数组快速操作的各种API，有包括数学、逻辑、形状操作、排序、选择、输入输出、离散傅立叶变换、基本线性代数，基本统计运算和随机模拟等等。

2022-10-14 16:10:45 633

ERNIE: Enhanced Language Representation with Informative Entities（2019）在之前的一期推送中，我们给大家介绍过百度的ERNIE。其实清华大学NLP实验室，比百度更早一点，也发表了名为ERNIE的模型，即Enhanced Language Representation with Informative Entities。他们认为现存的预训练语言模型很少会考虑与知识图谱（Knowledge Graph: KG）相结合，但其实知识图...

2022-01-10 11:12:35 981

原创 day7--UNILM预训练模型

既能理解又能生成自然语言，微软提出统一预训练新模型UniLM自然语言是人工智能正在攻克的一大难关，而微软的研究者最近发布了一种统一的预训练语言模型 UniLM，微软表示，该模型在机器阅读理解方面已经超越了人类水平。在 10 月 20 号的世界互联网大会中，微软之前提出来的「统一预训练语言模型与机器阅读理解技术」荣获「世界互联网领先科技成果」奖，沈向洋博士在会上介绍了这一模型。在机器之心的 SOTA 项目中，我们同样发现 UniLM 模型在很多自然语言理解、自然语言生成任务中有非常好的

2022-01-09 21:02:21 802

原创 day6--MASS预训练模型

2018年开始，预训练（pre-train）毫无疑问成为NLP领域最热的研究方向。借助于BERT和GPT等预训练模型，人类在多个自然语言理解任务中取得了重大突破。然而，在序列到序列的自然语言生成任务中，目前主流预训练模型并没有取得显著效果。为此，微软亚洲研究院的研究员在ICML 2019上提出了一个全新的通用预训练方法MASS，在序列到序列的自然语言生成任务中全面超越BERT和GPT。在微软参加的WMT19机器翻译比赛中，MASS帮助中-英、英-立陶宛两个语言对取得了第一名的成绩。BERT在自然语

2022-01-08 08:13:47 381

原创 day5--bert模型

本文分析了BERT模型的内部结构与原理，并在文本分类任务上检验了模型效果。从实验结果中可以看出，BERT模型的文本分类效果在许多中/英文数据集上都超过了现有方法，体现出了很强的泛用性。后续我们将继续检验BERT模型在其它NLP任务中的效果，并研究提升模型训练效率的方法

2022-01-07 10:52:16 339

原创 day4--GPT/GPT2.0

目录GPTGPT训练的两个阶段：GPT 的架构图：自注意力机制：GPT-2GPT-2 的架构图：GPTGPT训练的两个阶段：第一个阶段是 Pre-training 阶段，主要利用大型语料库完成非监督学习；第二阶段是 Fine-tuning，针对特定任务在相应数据集中进行监督学习，通过 Fine-tuning 技术来适配具体任务。GPT 的架构图：自注意力机制：下图中，每一层的所有Trm属于一个自左向右的单向transformer，故在embedding输入和

2022-01-06 10:08:52 884

原创 day3--SIATL模型

SIATL模型SiATL是一个标准的基于预训练模型，并把它的权重迁移到一个分类器并增加了一个任务特定层。下面是它的一个图例：ULMFiT & SiATLULMFiT (Universal Language Model Fine-tuning) 使用和ELMo类似的流程：使用通用数据预训练LM，模型使用了3层的AWD-LSTM。在特定任务数据上精调LM，其中使用到差异精调和倾斜三角lr两个策略。以LM作为初始值，精调特定任务分类模型，其中使用到.

2022-01-05 11:30:40 739

原创 day2--ULMFIT语言模型

ULMFIT模型ULMFIT和其它模型算法的比较上篇介绍了ELMo。ELMo有以下几个步骤：利用LM任务进行预训练，再利用目标领域的语料对LM模型做微调，最后针对目标任务进行最后的训练ULMFiT一样需要执行上述步骤。它的论文名字(Universal Language Model Fine-tuning for Text Classification)顾名思义就是一个利用LM模型给出的统一的在文本分类方面进行transfer learning的解决方案。一直以来都有人试图在NLP领域进

2022-01-04 20:50:43 797

原创 day1 -- ELMO语言模型

下面继续开始昨天的介绍，昨天也就是介绍了这一张表的大概意思。今天呢也就开始研究第一个ELMO模型了。一、优点1.学习单词的复杂特征，包括语法、语义2.学习在不同上下文下的一词多义二、模型1.Bidirectional language models（BLM）首先给定N个单词的序列，1）前向语言模型，已知前k-1个单词，预测第k个单词的概率：2）后向语言模型，已知下文，预测第k个单词：双向语言模型（biLM）...

2022-01-03 10:32:13 623

原创各种语言模型汇总表

最近会将这些语言模型都整理一遍

2022-01-02 18:32:20 464

原创 python实现新年倒计时代码

最近一直心心念念的想着过年回家于是乎就敲了一个新年倒计时的代码出来大家用的时候可以更改上面的日期，以后年年都可以用话不多说，上代码代码：import datetimeimport sysimport timeimport mathspring = datetime.datetime(2022, 1, 31, 0, 0, 0) # 新的一年的日期while True: today = datetime.datetime.now() # 获取当前的日期 da

2021-12-27 08:56:01 7963 1

原创关于git，这一篇git命令汇总解析就够了

Git是目前世界上最先进的分布式版本控制系统。很多人都知道，Linus在1991年创建了开源的Linux，从此，Linux系统不断发展，已经成为最大的服务器系统软件了。Linus虽然创建了Linux，但Linux的壮大是靠全世界热心的志愿者参与的，这么多人在世界各地为Linux编写代码，那Linux的代码是如何管理的呢？事实是，在2002年以前，世界各地的志愿者把源代码文件通过diff的方式发给Linus，然后由Linus本人通过手工方式合并代码！下文将会讲到git的操作以及注册GitHub

2021-12-23 15:57:59 771

原创生成对抗网络（Generative Adversarial Networks，GAN）

目录生成对抗网络（Generative Adversarial Networks，GAN）一、什么是GAN二、GAN的模型结构三、实战案例3.1 使用GAN生成人脸照片四、深入理解GAN模型4.1 GAN是一种非监督学习框架4.2 GAN是一种生成模型五、GAN的应用场景5.1 生成图像数据集5.2 图像到图像的转换5.3 照片编辑5.4 提高照片分辨率，让照片更清晰5.5 照片修复生成对抗网络（Generative Adversarial ..

2021-12-20 10:02:44 4512

原创 SMOTE采样处理数据不平衡问题

SMOTE算法：过采样和欠采样是处理非平衡分类问题时的常用手段。拿二分类为例，如果训练集中阳性样本有1000个，阴性样本有10万个，两者比例为1：100严重失衡。为了一些模型的性能考虑，我们需要进行一些处理使得两者的比例尽可能接近。过采样：对少的一类进行重复选择，比如我们对1000个阳性样本进行有放回的抽样，抽5万次（当然其中有很多重复的样本），现在两类的比例就变成了1：2，比较平衡。欠采样：对多的一类进行少量随机选择，比如我们对10万个阴性样本进行随机选择，抽中2000个（当然

2021-12-20 09:00:55 2176 1

原创 tensorflow一些参数的详细讲解分享（tensorflow1的哦）

tf1:tf.GradientTape()函数：tf提供的自动求导函数x = tf.Variable(initial_value=3.)with tf.GradientTape() as tape: # 在 tf.GradientTape() 的上下文内，所有计算步骤都会被记录以用于求导 y = tf.square(x)y_grad = tape.gradient(y, x) # 计算y关于x的导数tf.GradientTape() 是一个自动求导的记...

2021-12-19 18:20:49 1824

原创快要圣诞节啦，快去给小伙伴们分享漂亮的圣诞树吧

重要的是快要圣诞节了，可以做一个小惊喜送给男女朋友哦。py文件转换成exe文件，在别人没有pycharm也可以看到效果哦。

2021-12-17 14:39:07 3637 13

原创机器学习--SVM

SVMSVM三个重点问题：间隔，对偶，核技巧核技巧并不是说是和SVM单独绑定到一块就是属于SVM的，而是很早以前就有，就是将原本的X维度的空间映射到更高维度的空间，然后处理线性不可分的情况。首先SVM的提出是为了解决二分类问题准确的来说，这有两个类别的数据，有个一超平面可以将他们完美的分开，那么这个超平面的表示应该是wTX+b。看上图，其实在图中可以将两个类别分开的线有无数条，那么SVM选择的这条有什么优势或者说有什么特点呢？SVM就是要从这么些若干条可以正确分类的线中，挑选出来

2021-12-17 11:26:45 1014 1

原创 LightGBM详细

LightGBMGBDT是一个长久不衰的模型，他的思想是什么？它的思想就是将多个弱分类器迭代训练得到最优的模型，训练效果好，不易过拟合等等的有点，那么XGB就是典型的一个GBDT的实现。首先回顾一下XGB，它的核心思想就是说，是属于GBDT的一个延申，因此它的模型也是加法模型，由多个弱分类器相加的结果，那么在构成弱分类器的时候，首先需要对特征值进行预排序，然后便利所有的切分点，然后计算每个切分点的一个增益，最后找到最优的分裂点进行数据分裂成左右子树。XGB的优缺点：优点：能够

2021-12-17 11:22:38 1144

原创 LDA主题模型

LDA主题模型导入：朴素贝叶斯的文本分类问题：一个问题，现在由M个数据，一些被标记成垃圾邮件，一些被标记成非垃圾邮件，现在又来了一个新的数据，那么这个新的数据被标记成垃圾邮件或者非垃圾邮件的概率。朴素贝叶斯的两个基础：条件独立每个特征的重要性都是一样的分析：垃圾邮件有两种：C1，C2建立词汇表：1.使用现有的一个单词词典 2.将所有的邮件中出现的单词都统计出来，得到词典，计数为N这时每个邮件m都可以映射为一个N维的向量X；如果说每个单词一个单词wi在m这个文档中出现过，那么记作xi为

2021-12-17 11:15:04 1146

原创 KNN分类算法

KNN：K个最近的邻居，也就是说每个样本都可以用它最接近的K个邻居来表示。该算法的思想是，一个样本与数据集中的K个样本最相似，如果这K个样本中的大多数属于某一个类别，那么这个样本也属于这个类别。为电影进行分类的案例：统计了这么多电影，那么我们统计到电影中的，接吻次数和打斗次数，如果打斗次数多的话就是动作片，亲嘴次数多的话就是爱情片，现在有一部新电影，统计到了他的接吻和打斗次数，那么我们如何判断这部电影是什么片呢？我们画出来：打斗次数为X，接吻次数为Y：KNN的实现步骤：为

2021-12-17 11:06:39 599 2

原创 K_Means

Means：聚类算法就是涉及到给数据点分组，给定一组数据，我们可以使用聚类算法将每一个数据点划分成特定的组，为什么，因为在理论上，同一组的数据一般都具有相似的属性和特征，而不同组的数据中，往往要有高度不同的特征和属性，聚类始终无监督学习方法。常用的算法有：K-Means，高斯混合模型（GMM），自组织映射神经网络（SOM）算法流程：首先该算法接收的是无标签的数据它是一个迭代的过程，假设我们先要将数据聚成n类：首先选择K个随机点，聚类中心计算数据当中每个数据到聚类中心的距离，然后数

2021-12-17 10:55:07 323

原创 GBDT算法

GBDT的算法

2021-12-17 10:52:38 1083

原创 EM算法·最大期望算法

EM算法，称为期望-最大化，它用于求解MLE的一种迭代算法它的主要思想是把一个难于处理的似然函数最大化问题用一个易于最大化的序列取代，而其极限是原始问题的解EM算法分两步走：E步求期望，对隐变量进行积分；M步求参数最大值推导出EM算法有两个途径：ELBO+KL散度和ELBO+Jensen不等式一般情况下，EM算法是收敛的E步本质是求隐变量z的后验分布p(z|x,θ)，但很多情况无法直接求解，这就引出广义EM算法广义EM的E步是求KL散度最小值的p(z)，M步求似然函数最大值的参数θ

2021-12-17 10:26:06 1170 1

Aaadsda414114的博客