python:对英文段落进行分句(对一段英语进行整句切分,切分句子)

1. 示例代码:

使用split函数进行分割,得到新的列表

split_sentence.py

# -*- coding: utf-8 -*-
"""
Created on Thu Jan 21 21:57:45 2021
@author: dell
"""

str_centence=input("input:  ")            #input函数获取输入
list_ret = list()

for s_str in str_centence.split('.'):   #对输入进行处理  (用英文结尾句号.来划分句子)
    s_str = s_str.replace('\n','')      #去掉句子中的\n换行
    
    if '?' in s_str:
        list_ret.extend(s_str.split('?'))
    elif '!' in s_str:
        list_ret.extend(s_str.split('!'))
    else:
        list_ret.append(s_str)

for s_str in list_ret:
    #print(s_str+".\n")
    s_str=s_str+".\n"         #每一个完整英语句子加上句号“.”,然后加个换行
    print(s_str)              #输出

 

2. 运行结果:

选择pdf文档里的一段英文,如下:

复制粘贴,当作输入,输出结果如下所示:

 

参考:

https://zhuanlan.zhihu.com/p/41804488  教你如何对英文段落进行分句

 

 

  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
可以使用Python中的pandas和nltk库来对csv文件进行分句、分词、词性标注。 首先,使用pandas库读取csv文件: ```python import pandas as pd # 读取csv文件 data = pd.read_csv('文件路径.csv') ``` 接着,使用nltk库对文本进行分句、分词、词性标注: ```python import nltk # 下载punkt分句器和averaged_perceptron_tagger词性标注器 nltk.download('punkt') nltk.download('averaged_perceptron_tagger') # 对文本进行分句、分词、词性标注 sentences = nltk.sent_tokenize(data['text']) # 分句 tokens = [nltk.word_tokenize(sentence) for sentence in sentences] # 分词 tags = [nltk.pos_tag(token) for token in tokens] # 词性标注 ``` 最后,将分句、分词、词性标注的结果保存到csv文件中: ```python # 创建新的DataFrame来保存结果 result = pd.DataFrame({'sentences': sentences, 'tokens': tokens, 'tags': tags}) # 将结果保存到csv文件 result.to_csv('结果文件路径.csv', index=False) ``` 完整代码如下: ```python import pandas as pd import nltk # 读取csv文件 data = pd.read_csv('文件路径.csv') # 下载punkt分句器和averaged_perceptron_tagger词性标注器 nltk.download('punkt') nltk.download('averaged_perceptron_tagger') # 对文本进行分句、分词、词性标注 sentences = nltk.sent_tokenize(data['text']) # 分句 tokens = [nltk.word_tokenize(sentence) for sentence in sentences] # 分词 tags = [nltk.pos_tag(token) for token in tokens] # 词性标注 # 创建新的DataFrame来保存结果 result = pd.DataFrame({'sentences': sentences, 'tokens': tokens, 'tags': tags}) # 将结果保存到csv文件 result.to_csv('结果文件路径.csv', index=False) ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

weixin_39450145

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值