python是不是多模型语言_Python深度学习——文本与语言

最新推荐文章于 2024-06-25 22:12:08 发布

橘子洲豪杰

最新推荐文章于 2024-06-25 22:12:08 发布

阅读量691

点赞数

文章标签： python是不是多模型语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30276247/article/details/113983369

版权

本文介绍了Python中文本预处理的步骤，包括读入文本、分词、建立字典以及将文本转换为索引序列。还探讨了语言模型，特别是n-gram统计方法，并提到了其缺陷和神经网络在语言模型中的应用。

摘要由CSDN通过智能技术生成

文本与语言

本文包含以下内容

1、文本预处理

2、语言模型

文本预处理

文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：

1、读入文本

import collections

import re

def read_time_machine():

with open('/home/kesci/input/timemachine7163/timemachine.txt', 'r') as f:

lines = [re.sub('[^a-z]+', ' ', line.strip().lower()) for line in f]

return lines

lines = read_time_machine()

print('# sentences %d' % len(lines))

out：sentences 3221

2、分词

对每个句子进行分词，也就是将一个句子划分成若干个词(token)，转换为一个词的序列。

def tokenize(sentences, token='word'):

"""Split sentences into word or char tokens"""

if token == 'word':

return [sentence.split(' ') for sentence in sentences]

最低0.47元/天解锁文章

橘子洲豪杰

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python是不是多模型语言_Python深度学习——文本与语言

文本与语言本文包含以下内容1、文本预处理2、语言模型文本预处理文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：1、读入文本import collectionsimport redef read_time_machine():with open('/home/kesci/input/timemachine7163/timemachi...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。