llittle_zhuo-CSDN博客

原创情感分析学习笔记-Task06

最后一次的学习笔记，使用的是预训练的bert模型（如果原理不太理解的话，建议先把理论看一看，再来看代码会容易理解），bert是transformers里的encoder组成的，模型很大，参数也很多，所以选择用人家训练好的向量作为我们的embedding层，固定（而不训练）transformer，只训练从transformer产生的表示中学习的模型的其余部分。我们这次使用的是双向的GRU模型，它是LSTM的变形，比LSTM参数要少很多，用GRU来提取从Bert embedding后的特征。最后在fc层上输出最

2021-09-30 20:56:36 692

原创情感分析学习笔记-Task05

前几次的学习笔记，主要做的是情感的二分类：正面和负面。这次做的是情感的多分类，这次实验的数据集不再是IMDB，而是TREC数据集，TREC是问题数据集，任务是对问题所属的类别进行分类。它有6 个标签： HUM：关于人类的问题；ENTY：关于实体的问题的；DESC：关于要求提供描述的问题；- NUM：关于答案为数字的问题；LOC：关于答案是位置的问题； ABBR：关于询问缩写的问题。在最底部的代码有给出实例。我自己感觉本次的学习和之前的学习最大的不同在于我们的损失函数不同，二分类用的是BCEWithLogit

2021-09-22 21:19:33 280

原创情感分析学习笔记-Task04

这次学习的主要是用CNN去处理文本，做情感分析，CNN用在文本上的时候，他的filter是[n x emb_dim]，这里的n，你可以指定为2，3，4，5…，它就类似于n-gram里的n，emb_dim当然就是一个token需要用多少维的向量来表示，其他的地方与前3次的学习内容没有太多变化的地方，主要在模型那里，这里介绍一下原理。首先，我们的横轴是每个单词（token）embeding的维度，纵轴是文本中的每个单词。如考虑下面2个句子的嵌入句：然后我们可以使用一个[n x emb_dim]的filte

2021-09-21 20:09:50 282

原创情感分析学习笔记-Task03

首先，把这次学习的代码放在下边，只要包下好了，跑起来绝对没问题，速度也很快，可以看一下运行后的截图。同时，一些在前两篇文章没有出现过新的函数，在代码中也做了标注。接着，介绍一下这次的模型，其他的跟前两篇文章都差不多，只是模型变了，看一下这次的FastText（https://arxiv.org/abs/1607.01759）它是一种典型的深度学习词向量的表示方法，通过将Embedding层将单词映射到稠密空间，然后将句子中所有单词在Embedding空间中进行平均，进而完成分类。所以这个模型参数量相较于

2021-09-19 10:38:47 195

原创情感分析学习笔记-Task02

代码在下边已经附上，每句代码的具体意思，也写在上边，没有注释的可能是在task01里写过了，这里就不再重复赘述。因为我自己电脑配置的原因，我将原先的迭代次数5次，改为了1次，原先的hidden_dim=256改成了10，这样跑起来就快多了，如果要调试的话，你可以先试试能不能跑得通，再修改参数。这里我把最后一个predict_sentiment(model, “This film is terrible”)这句代码理解写出来，理解不到位的地方，还请指正。我们传入IMDB数据集训练好的模型，和我们要预测情感极

2021-09-18 18:24:32 205

原创情感分析学习笔记-Task01

Task01，由于我们要弄清楚情感分析的大概流程，所以我们用最简单的模型来理解，我们使用IMDB数据集（IMDb数据集包含50000条电影评论，每条评论都标记为正面或负面评论）下面就边上代码边理解。这里面en_core_web_sm是一个NLP的语言模型，spaCy使用的语言模型是预先训练的统计模型，能够预测语言特征，对于英语，共有en_core_web_sm、en_core_web_md和en_core_web_lg三种语言模型，sm/md/lg为描述大小的缩写：small（小）、medium（中）、l

2021-09-14 21:48:04 301

原创 Transformer

2021-08-18 19:38:16 115

原创分类和回归指标评价

一、分类指标评价1.几个常用的术语　　这里首先介绍几个常见的模型评价术语，现在假设我们的分类目标只有两类，计为正例（positive）和负例（negtive）分别是：　　1）True positives(TP): 被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数（样本数）；　　2）False positives(FP): 被错误地划分为正例的个数，即实际为负例但被分类器划分为正例的实例数；　　3）False negatives(FN):被错误地划分为负例的个数，即实际为正例但被

2021-01-14 18:37:16 2042

原创 pandas学习-连接-task16

一、关系型连接连接的基本概念在 pandas 中的关系型连接函数 merge 和 join 中提供了 how 参数来代表连接形式，分为左连接 left 、右连接 right 、内连接 inner 、外连接 outer ，它们的区别可以用如下示意图表示：左连接即以左边的键为准，如果右边表中的键于左边存在，那么就添加到左边，否则则处理为缺失值，右连接类似处理。内连接只负责合并两边同时出现的键，而外连接则会在内连接的基础上包含只在左边出现以及只在右边出现的值，因此外连接又叫全连接。上面这个简单的例子中

2020-12-29 22:12:22 273

原创 pandas学习-变形-task15

第五章变形一、长宽表的变形什么是长表？什么是宽表？这个概念是对于某一个特征而言的。例如：一个表中把性别存储在某一个列中，那么它就是关于性别的长表；如果把性别作为列名，列中的元素是某一其他的相关特征数值，那么这个表是关于性别的宽表。下面的两张表就分别是关于性别的长表和宽表：print(pd.DataFrame({'Gender':['F','F','M','M'],'Height':[163, 160, 175, 180]}))#关于性别的长表# Gender Height# 0

2020-12-27 22:10:43 185

原创 pandas学习-分组-task14

一、分组模式及其对象分组的一般模式分组操作的三个要素：分组依据、数据来源、操作及其返回结果。分组代码的一般模式即：df.groupby(分组依据)[数据来源].使用操作例如：现在返回到学生体测的数据集上，如果想要按照性别统计身高中位数，就可以如下写出：df.groupby('Gender')['Height'].median()# Gender# Female 159.6# Male 173.4# Name: Height, dtype: float64

2020-12-25 22:51:24 586

原创 pandas学习-索引-task13

一、索引器表的列索引列索引是最常见的索引形式，一般通过 [] 来实现。通过 [列名] 可以从 DataFrame 中取出相应的列，返回值为 Series ，例如从表中取出姓名一列：df = pd.read_csv("E:/document/python学习笔记/pandas学习/learn_pandas.csv", usecols=['School','Grade','Name','Gender','Weight','Transfer'])df['Name'].

2020-12-22 17:31:23 337 1

原创 pandas学习-pandas基础知识-task12

一、文件的读取和写入文件读取pandas 可以读取的文件格式有很多，这里主要介绍读取 csv, excel, txt 文件。这里有一些常用的公共参数， header=None 表示第一行不作为列名， index_col 表示把某一列或几列作为索引，索引的内容将会在第三章进行详述， usecols 表示读取列的集合，默认读取所有的列， parse_dates 表示需要转化为时间的列，关于时间序列的有关内容将在第十章讲解， nrows 表示读取的数据行数。上面这些参数在上述的三个函数里都可以使用。在

2020-12-19 16:23:40 697

原创 pandas学习-预备知识-task11

一、Python基础列表推导式与条件赋值生成一个数字序列L1=[]def my_func(x): return 2*xfor i in range(5): L.append(my_func(i))print(L1)#[0, 2, 4, 6, 8]利用列表推导式进行写法上的简化L2=[my_func(i) for i in range(5)]print(L2)#[0, 2, 4, 6, 8]列表表达式还支持多层嵌套，如下面的例子中第一个 for 为外层循环，第

2020-12-14 20:30:42 174

原创 numpy基础用法-学习笔记-task10

大作业本次练习使用鸢尾属植物数据集 .\iris.data ，在这个数据集中，包括了三类不同的鸢尾属植物：Iris Setosa，Iris Versicolour，Iris Virginica。每类收集了50个样本，因此这个数据集一共包含了150个样本。sepallength：萼片长度sepalwidth：萼片宽度petallength：花瓣长度petalwidth：花瓣宽度以上四个特征的单位都是厘米（cm）导入鸢尾属植物数据集，保持文本不变。【知识点：输入和输出】求出鸢尾属植

2020-11-30 21:08:31 419 1

原创 numpy基础用法-学习笔记-task09

线性代数Numpy 定义了 matrix 类型，使用该 matrix 类型创建的是矩阵对象，它们的加减乘除运算缺省采用矩阵方式计算，因此用法和Matlab十分类似。但是由于 NumPy 中同时存在 ndarray 和 matrix对象，因此用户很容易将两者弄混。这有违 Python 的“显式优于隐式”的原则，因此官方并不推荐在程序中使用 matrix 。在这里，我们仍然用 ndarray 来介绍。矩阵和向量积矩阵的定义、矩阵的加法、矩阵的数乘、矩阵的转置与二维数组完全一致，不再进行说明，但矩阵的乘

2020-11-29 11:27:44 359

原创 numpy基础用法-学习笔记-task08

次序统计计算最小值numpy.amin(a[, axis=None, out=None, keepdims=np._NoValue, initial=np._NoValue,where=np._NoValue])Return the minimum of an array or minimum along an axis.【例】计算最小值import numpy as npx = np.array([[11, 12, 13, 14, 15],[16, 17, 18, 19, 20],[2

2020-11-27 19:37:31 180

原创 numpy基础用法-学习笔记-task07

随机抽样numpy.random 模块对 Python 内置的 random 进行了补充，增加了一些用于高效生成多种概率分布的样本值的函数，如正态分布、泊松分布等。https://www.cnblogs.com/hhh5460/p/5586098.html#topnumpy.random.seed(seed=None)seed() 用于指定随机数生成时所用算法开始的整数值，如果使用相同的 seed() 值，则每次生成的随机数都相同，如果不设置这个值，则系统根据时间来自己选择这个值，此时每次生成的随

2020-11-25 21:09:04 220

原创 numpy基础用法-学习笔记-task06

输入和输出1.numpy 二进制文件save() 、 savez() 和 load() 函数以 numpy 专用的二进制类型（npy、npz）保存和读取数据，这三个函数会自动处理ndim、dtype、shape等信息，使用它们读写数组非常方便，但是 save() 输出的文件很难与其它语言编写的程序兼容。npy格式：以二进制的方式存储文件，在二进制文件第一行以文本形式保存了数据的元信息（ndim，dtype，shape等），可以用二进制工具查看内容。npz格式：以压缩打包的方式存储文件，可以用压缩软件

2020-11-23 20:04:48 202

原创 numpy基础用法-学习笔记-task05

1.排序，搜索和计数1）排序numpy.sort(a[, axis=-1, kind=‘quicksort’, order=None]) Return a sorted copy of an array.a. axis：排序沿数组的（轴）方向，0表示按行，1表示按列，None表示展开来排序，默认为-1，表示沿最后的轴排序。b. kind：排序的算法，提供了快排’quicksort’、混排’mergesort’、堆排’heapsort’，默认为‘quicksort’。c. order：排序的字段名

2020-10-30 19:49:20 260

原创 numpy基础用法-学习笔记-task04

1.向量化和广播化向量化和广播这两个概念是 numpy 内部实现的基础。向量化：编写代码时无需使用显式循环。这些循环实际上不能省略，只不过是在内部实现，被代码中的其他结构代替。向量化的应用使得代码更简洁，可读性更强，也可以说使用了向量化方法的代码看上去更“Pythonic”。广播（Broadcasting）机制描述了 numpy 如何在算术运算期间处理具有不同形状的数组，让较小的数组在较大的数组上“广播”，以便它们具有兼容的形状。并不是所有的维度都要彼此兼容才符合广播机制的要求，但它们必须满足一定的条

2020-10-28 22:47:22 248

qq_42225861的博客