文本预处理

1.利用正则表达式对去除非文本字符


#u的作用 :后面的字符串以unicode格式进行编码,用在中文字符前面,防止因为源码存储格式导致使用时出现乱码
import re
pattern = re.compile(u'[^a-zA-Z\u4E00-\u9FA50-9]')
dissertation_title = "'Daddy's girls', 'degenerate daughters': Tracing interconnected violences within women's 'survivor' narratives"
dissertation_year = "1998"
dissertation_school = "University of Toronto"
dissertation_author = "Hiller, Christine Louise"

dep_str ="".join( pattern.split("".join([dissertation_title,dissertation_school,dissertation_author,dissertation_year]))).lower()
print("dep_str:",dep_str)

# python字符拼接
join_str1 = "{}-{}-{}".format(dissertation_author,dissertation_school,dissertation_year)
join_str2 = "%s-%s-%s"%(dissertation_author,dissertation_school,dissertation_year)
print("join_str1:",join_str1)
print("join_str2:",join_str2)





控制台输出结果

 

2.利用replace()函数替换字符串

page_info = "Pages: 17-19 "
replace_page_info = page_info.replace("Pages:","").strip()

控制台输出结果

3.利用第三方包对文本进行分词

    3.1 由于英文文章每个单词间以空格进行分隔,对于英文文本以split()函数进行分词即可

    3.2 中文文本分词

          a.结巴分词

import jieba
cut_str ="这项研究考察了个人的意义和对死亡的态度对成功衰老的影响。个人意义是用个人意义资料来衡量的(黄,1998年A)。死亡态度是用修正后的死亡态度来衡量的(Wong , Reker , &Gesser ,1994年)。成功的衰老是用主观幸福感量表、生活满意度量表(Diener , Emmons , Larsen , &Griffin ,1985年)来衡量的。参与者为60岁或60岁以上,独立生活,包括136 人。结果是(a)?个人意义的分类、公平的待遇和亲密感,是个人幸福意义上最独特的差异;(b)?对死亡的恐惧和接受方法与幸福密切相关;(c)?个人意义与幸福的关联部分是由死亡态度和(d)?自我接受与对死亡的恐惧密切相关,而宗教与接近接受密切相关。会议讨论了这些调查结果的影响。"

result = jieba.cut(cut_str)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值