情感处理python代码相关

最新推荐文章于 2024-03-03 12:10:41 发布

开心邮递员

最新推荐文章于 2024-03-03 12:10:41 发布

阅读量686

点赞数

文章标签： python 自然语言处理 pytorch

本文链接：https://blog.csdn.net/weixin_42187536/article/details/120867369

版权

keras

model.fit()

fit( x, y, batch_size=32, epochs=10, verbose=1, callbacks=None,
validation_split=0.0, validation_data=None, shuffle=True, 
class_weight=None, sample_weight=None, initial_epoch=0)

x:输入数据，如果模型只有一个输入，那么x的类型是numpy array，如果模型有多个输入，那么x的类型应当为list，list的元素对应于各个输入的numpy array

y：标签，numpy array

batch_size: 整数，指定进行梯度下降时每个batch 包含的样本数，训练时一个batch的样本会被计算一次梯度下降，使目标函数优化一步

epochs:整数，训练终止时的epoch值，训练将在达到该epoch值时停止，当没有设置initial_epoch时，就是训练的总轮数，否则训练的总轮数为epochs -inital_epoch

verbose:日志显示，0为不在标准输出流输出日志信息，1为输出进度条记录，2为每个epoch输出一行记录。

callbacks: list，其中的元素是keras.callbacks.Callback的对象。这个list中的回调函数将会在训练过程中的适当时机被调用，参考回调函数。

validation_split: 0-1之间的浮点数，用来指定训练集的一定比例数据作为验证集。验证集将不参与训练，并在epoch结束后测试的模型的指标，如损失函数、精确度等。注意，validation_split的划分在shuffle之前，因此如果你的数据本身是有序的，需要先手工打乱再指定validation_split，否则可能会出现验证集样本不均匀。

validation_data：形式为（X，y）的tuple，是指定的验证集。此参数将覆盖validation_spilt。

shuffle：布尔值或字符串，一般为布尔值，表示是否在训练过程中随机打乱输入样本的顺序。若为字符串“batch”，则是用来处理HDF5数据的特殊情况，它将在batch内部将数据打乱。

class_weight：字典，将不同的类别映射为不同的权值，该参数用来在训练过程中调整损失函数（只能用于训练）

sample_weight：权值的numpy
array，用于在训练时调整损失函数（仅用于训练）。可以传递一个1D的与样本等长的向量用于对样本进行1对1的加权，或者在面对时序数据时，传递一个的形式为（samples，sequence_length）的矩阵来为每个时间步上的样本赋不同的权。这种情况下请确定在编译模型时添加了sample_weight_mode=’temporal’。

initial_epoch: 从该参数指定的epoch开始训练，在继续之前的训练时有用。

fit函数返回一个history的对象，其history.history属性记录了损失函数和其他指标的数值随epoch变化的情况，如果有验证集的话，包含了验证集的这些指标变化情况。

分词器Tokenizer

Tokenizer是一个用于向量化文本，或将文本转换为序列的类，是用来文本预处理的第一步：分词

Tokenizer核心是把一个词转化为一个正整数，让文本变成一个序列。

keras.preprocessing.text.Tokenizer(num_words=None,
                                   filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n',
                                   lower=True,
                                   split=' ',
                                   char_level=False, 
                                   oov_token=None, 
                                   document_count=0)

num_words ：保留的最大词数，根据词频计算。默认为None是处理所有字词。如果设置成一个整数，那么最后返回的是最常见的、出现频率最高的 num_words 个字词。
filters ：过滤掉常用的特殊符号，默认上文的写法就可以了。
lower ：是否转化为小写。
split ：词的分隔符，如空格。
char_level ：是否将每个字符都认为是词，默认是否。在处理中文时如果每个字都作为是词，这个参数改为True.
oov_token ：如果给出，会添加到词索引中，用来替换超出词表的字符。
document_count ：文档个数，这个参数一般会根据喂入文本自动计算，无需给出

例如，num_words为100，则

from keras.preprocessing.text import Tokenizer

sentences = ["I love dog",
             "I love cat"]

tokenizer = Tokenizer(num_words=100)

fit_on_texts(texts) ：

参数 texts：要用以训练的文本列表。
返回值：无。

texts_to_sequences(texts) ：

参数 texts：待转为序列的文本列表。
返回值：序列的列表，列表中每个序列对应于一段输入文本。

texts_to_sequences_generator(texts) ：

本函数是texts_to_sequences的生成器函数版。
参数 texts：待转为序列的文本列表。
返回值：每次调用返回对应于一段输入文本的序列。

texts_to_matrix(texts, mode) ：

参数 texts：待向量化的文本列表。
参数 mode：'binary'，'count'，'tfidf'，'freq' 之一，默认为 'binary'。
返回值：形如(len(texts), num_words) 的numpy array。

fit_on_sequences(sequences) ：

参数 sequences：要用以训练的序列列表。
返回值：无

sequences_to_matrix(sequences) ：

参数 sequences：待向量化的序列列表。
参数 mode：'binary'，'count'，'tfidf'，'freq' 之一，默认为 'binary'。
返回值：形如(len(sequences), num_words) 的 numpy array。

word_counts ：字典，将单词（字符串）映射为它们在训练期间出现的次数。仅在调用fit_on_texts之后设置。

word_docs ：字典，将单词（字符串）映射为它们在训练期间所出现的文档或文本的数量。仅在调用fit_on_texts之后设置。

word_index ：字典，将单词（字符串）映射为它们的排名或者索引。仅在调用fit_on_texts之后设置。

document_count ：整数。分词器被训练的文档（文本或者序列）数量。仅在调用fit_on_texts或fit_on_sequences之后设置

序列预处理pad_sequences()序列填充

keras 只接受长度相同的序列输入，如果序列长度参差不齐，需要使用pad_sequences()。

pad_sequences()

keras.preprocessing.sequence.pad_sequences(sequences, 
	maxlen=None,
	dtype='int32',
	padding='pre',
	truncating='pre', 
	value=0.)

sequences：浮点数或整数构成的两层嵌套列表
maxlen：None或整数，为序列的最大长度。大于此长度的序列将被截短，小于此长度的序列将在后部填0.
dtype：返回的numpy array的数据类型
padding：‘pre’或‘post’，确定当需要补0时，在序列的起始还是结尾补`
truncating：‘pre’或‘post’，确定当需要截断序列时，从起始还是结尾截断
value：浮点数，此值将在填充时代替默认的填充值0

***文件读尽量用codecs.open方法，一般不会出现编码问题。

codecs.open(filepath,method,encoding)

filepath--文件路径

method--打开方式，r为读，w为写，rw为读写

encoding--文件的编码，中文文件使用utf-8

'r'：只读（缺省。如果文件不存在，则抛出错误）
'w'：只写（如果文件不存在，则自动创建文件）
'a'：附加到文件末尾
'r+'：读写

enumerate()

enumerate()函数用于将一个可遍历的车数据对象，组合为一个索引序列，同时列出数据和数据下表，一般用在for循环当中。

i=0
seq=['one','two','three']
for i,element in enumerate(seq):
    print(i,element)

----->>>>>>
0 one
1 two
2 three

i=0
seq=['one','two','three']
for i,element in enumerate(seq,1):
    print(i,element)

------>>>>>>>
1 one
2 two
3 three

re

1、match re.match(pattern, string[, flags])

从首字母开始开始匹配，string如果包含pattern子串，则匹配成功，返回Match对象，失败则返回None，若要完全匹配，pattern要以$结尾。

2、search re.search(pattern, string[, flags])

若string中包含pattern子串，则返回Match对象，否则返回None，注意，如果string中存在多个pattern子串，只返回第一个。

3、findall re.findall(pattern, string[, flags])

返回string中所有与pattern相匹配的全部字串，返回形式为数组。

4、finditer re.finditer(pattern, string[, flags])

返回string中所有与pattern相匹配的全部字串，返回形式为迭代器。 若匹配成功，match()/search()返回的是Match对象，finditer()返回的也是Match对象的迭代器。

综上所述

group()：母串中与模式pattern匹配的子串；

group(0)：结果与group()一样；

group(1) 列出第一个括号匹配部分，group(2) 列出第二个括号匹配部分，group(3) 列出第三个括号匹配部分。

groups()：所有group组成的一个元组，group(1)是与patttern中第一个group匹配成功的子串，group(2)是第二个，依次类推，如果index超了边界，抛出IndexError；

findall()：返回的就是所有groups的数组，就是group组成的元组的数组，母串中的这一撮组成一个元组，那一措组成一个元组，这些元组共同构成一个list，就是findall()的返回结果。另，如果groups是只有一个元素的元组，findall的返回结果是子串的list，而不是元组的list了。

tf.Print()

调试程序时，需要检查中间参数，这些参数一般是定义在model或是别的函数中的局部参数，由于tensorflow要求先构建计算图再运算的机制，也不能定义后直接print出来，tensorflow有一个函数tf.Print(input, data, message=None, first_n=None, summarize=None, name=None)

最低要求两个输入，input和data，input是需要打印变量的名字，data要求是一个list，里面包含要打印的内容。

message是需要输出的错误信息。

first_n指只记录前n次。

summarize是对每个tensor只打印的条目数量，如果是None，对于每个输入tensor只打印3个元素。

name是op的名字。

注意：tf.Print()只是构建一个op，需要run之后才会打印。

开心邮递员

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
情感处理python代码相关

keras分词器TokenizerTokenizer是一个用于向量化文本，或将文本转换为序列的类，是用来文本预处理的第一步：分词Tokenizer核心是把一个词转化为一个正整数，让文本变成一个序列。keras.preprocessing.text.Tokenizer(num_words=None, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n',
复制链接

扫一扫