利用分词工具包例如jieba可以轻易的将句子切分为不同的单词,但是当你有切分整句的需求时,该怎么解决呢?
- 将段落按句号切分整句
1.jieba分词可以切分单词
进行中文自然语言处理时,分词是一个常见的操作,例如:
import jieba.posseg as pseg
txt = "【#奔驰女车主不接受4S店道歉# 双方现场交涉言语激烈】4月13日,西安维权奔驰女车主和4S店方见面,双方并未当场和解。4S店相关负责人称,由于出差等原因未及时联系车主,车主则反驳称,可通过电话联系,“没人把你的联系方式给我。”交涉过程中双方言语交锋激烈。#西安奔驰女车主维权# "
words = pseg.cut(txt)
for word, flag in words:
print('%s %s' % (word, flag))
利用这段代码对这段文本信息进行分词和词性标注,就有如下结果(部分省略):
【 x
# x
奔驰 v
女 b
车主 n
...
2.整句切分——按标点切分
或许你不需要单词切分你只需要整句切分,即按标点切分,那么你可以这样做:
import re
txt = "【#奔驰女车主不接受4S店道歉# 双方现场交涉言语激烈】4月13日,西安维权奔驰女车主和4S店方见面,双方并未当场和解。4S店相关负责人称,由于出差等原因未及时联系车主,车主则反驳称,可通过电话联系