01. pyhton 统计句子的长度

Python的一些应用 jupyter notebook源码

总体思想:使用字符串的split()划分单词,利用set()特性,进行字符数统计。

代码:

  1. 统计一句英文句子的长度:(包括是否去除重复单词)
# 假设英文句子为t
t ='After updating from 2.0.40 to 2.0.42, all POST-request to the cgi-bin are \
    broken, and return the script source-code! GET-request to the same scripts \
    function normal.\
    This is not a config issue, worked up to 2.0.40, and works for GET in 2.0.42'

# 通过split划分英文句子中的单词  t.split()是list形式,采用len()方法计算长度
len(t.split())   

# 去掉重复单词的句子长度 set()可去除重复值
len(set(t.split()))
  1. 统计一句中文句子的长度:
import jieba

# 假设中文文本为t_c
t_c = '1中文语句。。。。。。。。。。。。省略。。。。。。'


# 利用jieba分词
t = jieba.cut(t_c)
# 将分词通过空格拼接
res = '  '.join(t)  

# 统计字符数(包含空格)
len(res)  # 结果为242 与word中的统计一致 如下图
# 若想统计不计空格的数目,使用res = ' '.join(t)  将分词进行拼接
  1. 统计csv文件中每一行文本的长度:
import pandas as pd

data = pd.read_csv('G:/Pycharm/key/dataset/GCC.csv') #这里是我文件的路径
data[['Bug ID','Summary']] # 我取出文件中的两列,一列是ID,一列是文本

# 定义一个获取长度的函数 也就是将1中的代码封装为函数
def getLen(t):
    t = str(t)
    return len(set(t.split()))

# 将计算得到的长度存储到Len这一列
data['Len'] = data.Summary.apply(getLen)  # apply函数可实现批量操作 具体使用方法自行百度

# 查看相关信息
data[['Bug ID','Summary','Len']].head()
# 或存入csv文件
data.to_csv('./res.csv')

在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值