[python 主谓宾否]正则表达式+jieba分词

原创 2018年04月17日 15:53:17
>>> import re
>>> match = r'[\u4e00-\u9fa5]+\sn'
>>> f = open('E:/序言++.txt').read()
>>> z = re.findall(match,f)
>>> print(z)
['美国版 n', '序言 n', '部 n', '哲学史 n', '目的 n', '目的 n', '哲学 n', '社会 n', '政治 n', '卓越 n', '个人 n', '体系 n', '社会 n', '性格 n', '产物 n', '成因 n', '目的 n', '历史 n', '哲学史 n', '读者 n', '时期 n', '经院哲学 n', '大 n', '时代 n', '世纪 n', '产物 n', '时期 n', '反作用 n', '罗马 n', '中古 n', '教权 n', '世纪 n', '世纪 n', '知识界 n', '气氛 n', '时期 n', '时 n', '时期 n', '目的 n', '哲学家 n', '时代 n', '哲学家 n', '有力 n', '时代 n', '若想 n', '哲学家 n', '同情 n', '时 n', '历史 n', '观点 n', '后果 n', '哲学家 n', '地位 n', '哲学 n', '优异性 n', '地位 n', '斯宾诺莎 n', '洛克 n', '哲学家 n', '洛克 n', '简略 n', '人 n', '卢梭 n', '拜伦 n', '学术 n', '意义 n', '哲学家 n', '哲学思潮 n', '气质 n', '哲学 n', '家们 n', '重要性 n', '哲学家 n', '哲学 n', '亚力山大 n', '大帝 n', '查理曼 n', '拿破仑 n', '莱库 n', '格斯 n', '例子 n', '企图 n', '包罗 n', '时期 n', '原则 n', '标准 n', '哲学史 n', '结论 n', '过分 n', '读者 n', '价值 n', '东西 n', '人物 n', '人物 n', '生气 n', '社会 n', '背景 n', '东西 n', '细节 n', '人 n', '时代 n', '题材 n', '专家 n', '哲学家 n', '范围 n', '人 n', '人 n', '哲学家 n', '莱布尼兹 n', '理由 n', '结果 n', '人 n', '历史 n', '范围 n', '东西 n', '斯巴达 n', '卢梭 n', '柏拉图 n', '世纪 n', '基督教 n', '哲学 n', '奈斯 n', '脱流斯 n', '教派 n', '阿拉伯人 n', '阿奎那 n', '伦巴 n', '诸城 n', '圣安 n', '布洛斯 n', '自由主义 n', '政治 n', '哲学 n', '综合性 n', '历史 n', '著作 n', '题材 n', '理由 n', '题目 n', '部分 n', '读者 n', '时间 n', '飞车 n', '方面 n', '问世 n', '巴恩斯 n', '博士 n', '原稿 n', '宾夕法尼亚大学 n', '巴恩斯 n', '基金 n', '讲座 n', '讲授 n', '妻子 n', '巴特 n', '雷西亚 n', '罗素 n', '方面 n', '方面 n', '伯特兰 n', '罗素 n']
>>>

--------参考:https://blog.csdn.net/qq_19741181/article/details/79973526---------------------------

>>> match = r'[\u4e00-\u9fa5]+\sn|[\u4e00-\u9fa5]+\sv|[\u4e00-\u9fa5]+\sc|[\u4e00-\u9fa5]+\sd'
>>> z = re.findall(match,f)
>>> print(z)
['美国版 n', '序言 n', '已经 d', '有 v', '不少 d', '部 n', '哲学史 n', '目的 n', '并 c', '不是 c', '要 v', '仅仅 d', '再 d', '加上 v', '目的 n', '是 v', '要 v', '揭示 v', '哲学 n', '乃是 c', '社会 n', '生活 v', '政治 n', '生活 v', '并 c', '不是 c', '卓越 n', '个人 n', '所 c', '做出 v', '孤立 v', '思考 v', '而是 c', '曾经 d', '有 v', '体系 n', '盛行 v', '社会 n', '性格 n', '产物 n', '成因 n', '目的 n', '就 d', '要求 v', '历史 n', '叙述 v', '通常 d', '哲学史 n', '做 v', '还 d', '发觉 v', '读者 n', '未必 d', '是 v', '很 d', '熟悉 v', '时期 n', '尤其 d', '必要 d', '经院哲学 n', '大 n', '时代 n', '乃是 c', '世纪 n', '改革 v', '产物 n', '而 c', '改革 v', '又 d', '是 v', '时期 n', '腐化 v', '反作用 n', '如果 c', '罗马 n', '灭亡 v', '中古 n', '教权 n', '兴起 v', '世纪 n', '没有 v', '知识 v', '就 d',
>>> z = " ".join(z)

>>> print(z)
美国版 n 序言 n 已经 d 有 v 不少 d 部 n 哲学史 n 目的 n 并 c 不是 c 要 v 仅仅 d 再 d 加上 v 目的 n 是 v 要 v 揭示 v 哲学 n 乃是 c 社会 n 生活 v 政治 n 生活 v 并 c 不是 c 卓越 n 个人 n 所 c 做出 v 孤立 v 思考 v 而是 c 曾经 d 有 v 体系 n 盛行 v 社会 n 性格 n 产物 n 成因 n 目的 n 就 d 要求 v 历史 n 叙述 v 通常 d 哲学史 n 做 v 还 d 发觉 v 读者 n 未必 d 是 v 很 d 熟悉 v 时期 n 尤其 d 必要 d 经院哲学 n 大 n 时代 n 乃是 c 世纪 n 改革 v 产物 n 而 c 改革 v 又 d 是 v 时期 n 腐化 v 反作用 n 如果 c 罗马 n 灭亡 v 中古 n 教权 n 兴起 v 世纪 n 没有 v 知识 v 就 d 会 v 难于 d 理解 v 世纪 n 知识界 n 气氛 n 处理 v 时期 n 时 n 正如 v 处理 v 时期 n 目的 n 仅仅 d 在于 v 提供 v 就 d 造成 v 哲学家 n 时代 n 而言 c 以及 c 哲学家 n 形成 v 也 d 有力 n 焉 v 时代 n 而言 c 认为 v 是 v 若想 n 哲学家 n 有 v 同情 n 理解 v 时 n 有 v 必要 d 加以 v 叙述 v 历史 n 观 点 n 后果 n 就是 d 给予 v 哲学家 n 地位 n 并 c 不 d 就是 d 哲学 n 优异性 n 所 c 应得 v 地位 n 例如 v 就 d 认为 v 斯宾诺莎 n 是 v 洛克 n 更 d 哲学家 n 但是 c 影响 v 却 d 小得多 d 因此 c 处理 v 就要 d 处理 v 洛克 n 简略 n 人 n 例如 v 卢梭 n 和 c 拜伦 n 虽然 c 学术 n 意义 n 不是 c 哲学家 n 但是 c 却是 d 如此 c 影响 v 哲学思潮 n 气质 n 以致于 v 如果 c 忽略 d 便 d 不 d 可能 v 理解 v 哲学 n 发展 v 就 d 而论 c 甚至于 d 行动 v 家们 n 也 d 具有 v 重要性 n 哲学家 n 哲学 n 影响 v 是 v 能 v 比得上 d 亚力山大 n 大帝 n 查理曼 n 或者 c 拿破仑 n 莱库 n 格斯 n 如果 c 就 d 更是 d 例子 n 企图 n 包罗 n 时期 n 既然 c 是 v 如此 c 就 d 必须 d 要 v 有 v 选择 v 原则 n 读 v 标准 n 哲学史 n 得到 v 结论 n 过分 n 简短 v 叙述 v 是 v 不会 v 读者 n 有 v 价值 n 东西 n 因此 c 就 d 以为 c 似乎 d 不 d 值得 v 处理 v 人物 n 例外 v 略过 v 不 d 提 v 讨论 v 人物 n 只 d 提到 v 看来 v 是 v 生气 n 以及 c 社会 n 背景 n 有关 v 东西 n 甚至于 d 无关 v 细节 n 也 d 只要 c 认为 v 足以 v 说明 v 人 n 或者 c 时代 n 研究 v 题材 n 专家 n 还 d 说 v 辩解 v 哲学家 n 知识 v 不 d 可能 v 和 c 研究 v 范围 n 不 d 太 d 人 n 能 v 知道 v 相比 v 毫不 d 怀疑 v 人 n 述及 v 哲学家 n 莱布尼兹 n 都 d 知道 v 然而 c 如果 c 就 d 成 为 v 应该 v 缄默 v 理由 n 结果 n 就 d 会 v 没有 v 人 n 可以 c 论述 v 历史 n 片断 d 范围 n 以外 c 东西 n 斯巴达 n 卢梭 n 影响 v 柏拉图 n 世纪 n 基督教 n 哲学 n 影响 v 奈斯 n 脱流斯 n 教派 n 阿拉伯人 n 以及 c 从而 c 阿奎那 n 影响 v 伦巴 n 诸城 n 兴起 v 直到 v 为止 v 圣安 n 布洛斯 n 自由主义 n 政治 n 哲学 n 影响 v 都 d 是 v 只有 c 综合性 n 历史 n 著作 n 才能 v 处理 v 题材 n 理由 n 要求 v 发现 v 题目 n 部分 n 知识 v 显得 v 读者 n 鉴谅 v 如果 c 不 d 需要 v 记住 v 时间 n 如 v 飞车 n 方面 n 知识 v 是 v 会 v 比较 d 得以 v 问世 n 要 v 归功于 v 巴恩斯 n 博士 n 原稿 n 是 v 宾夕法尼亚大学 n 巴恩斯 n 基金 n 讲座 n 而 c 写 v 有 v 曾 d 讲授 n 正如 v 工作 v 妻子 n 巴特 n 雷西亚 n 罗素 n 研究 v 方面 n 以及 c 方面 n 都 d 曾 d 帮助 v 伯特兰 n 罗素 n
>>>
>>> z.replace(' ','')

'美国版n序言n已经d有v不少d部n哲学史n目的n并c不是c要v仅仅d再d加上v目的n是v要v揭示v哲学n乃是c社会n生活v政治n生活v并c不是c 卓越n个人n所c做出v孤立v思考v而是c曾经d有v体系n盛行v社会n性格n产物n成因n目的n就d要求v历史n叙述v通常d哲

-------------------------------------------------------------------------------------------

>>> re.sub('[^a-zA-Z]','',z)
'nndvdnnnccvddvnvvvncnvnvccnncvvvcdvnvnnnnndvnvdnvdvndvdvnddnnncnvncvdvnvncnvnnvnvvdvdvnnnvnnvvnndvvdvnnccnvdnvncvvnnvnvnvdvvnnndvnncddnncvnvdvnvndncvddcvdvnnnvncncnncncdcvnnvcdddvvnvdcdvndvnnnvvvdnnncnnncddnnnncvcddvvvnvnnvnnvvvvnvnncdcddvvnvvdvvndvvvncnnvndvndcvvvncnvnndvvnvdvcvnddnvvvdvnvnndvccdvvvnndvvncvndncnnnvnnnnvnnnnccnvnnvvvnnnnnvdvcnnnvvnnvvnnvvnvcdvvnvnnvvvdvnvvnnnvnnnncvvdnvvnnnnvncnddvnn'

>>>

-----------------------------



CVSNT用户管理方案(根据自己的实际需求所总结)

CVSNT用户管理方案 所有这些操作基于的环境和软件版本:WINDOWS2000 Pro、CVSNT2.0.4、WinCVS1.3.9.1Beta9              在前面的介绍CVSNT配...
  • dyroro
  • dyroro
  • 2003-12-07 22:38:00
  • 1501

python︱六款中文分词模块尝试:jieba、THULAC、SnowNLP、pynlpir、CoreNLP、pyLTP

公众号“素质云笔记”定期更新博客内容: THULAC 四款python中中文分词的尝试。尝试的有:jieba、SnowNLP(MIT)、pynlpir(大数据搜索挖掘实验室(北京市海量语...
  • sinat_26917383
  • sinat_26917383
  • 2017-08-10 17:42:39
  • 11278

【python jieba excel】用结巴分词,将文章分句,一行一行分词,并导入excel

第一步:将文章以句号形式分开,并标号第二步:使用结巴遍历每一句,并分词第三步:使用txt导入excel-------------------------------------------------...
  • qq_19741181
  • qq_19741181
  • 2018-04-06 21:43:37
  • 38

主谓双宾的2种写法

主谓双宾:主语 + vt. + 人 + 物 She gave me a book 主语 + vt. + 物 + to/for + 人 I cooked him a meal.主谓...
  • github_26672553
  • github_26672553
  • 2016-11-17 16:42:45
  • 1544

简单句 - 主谓/主谓宾/主系表的分析

1.主谓Last week I went to the theatre谓语动词went。 to the theatre是一个介词短语,表示”地点、方位”。所以词句并不是主谓宾结构。 另外,如果一个...
  • github_26672553
  • github_26672553
  • 2016-11-17 16:07:08
  • 1012

nlp 总结 分词,词义消歧,词性标注,命名体识别,依存句法分析,语义角色标注

分词 中文分词 (Word Segmentation, WS) 指的是将汉字序列切分成词序列。 因为在汉语中,词是承载语义的最基本的单元。分词是信息检索、文本分类、情感分析等多项中文自然语言处理任务...
  • u013378306
  • u013378306
  • 2017-03-21 14:24:27
  • 2540

一个无聊的主谓宾游戏

这算是第一次写那么垃圾的代码吧 ,为了凑够杀千刀的2000行 import java.awt.*; import java.awt.event.*; import java.util.Ra...
  • tao20dage
  • tao20dage
  • 2015-09-07 18:37:18
  • 1123

【实例】python 使用 Stanford-corenlp 分词

>>> from stanfordcorenlp import StanfordCoreNLP #第一步>>>&am...
  • qq_19741181
  • qq_19741181
  • 2018-02-28 01:47:52
  • 100

提取中文句子主谓宾的Java实现

在自然语境中,一个意思可以有多种表现。比如“我喜欢你”“我喜欢隔壁班的你”“你被我偷偷的喜欢着”都表达了“我喜欢你”。搜索引擎如果机械地按照词频算法检索的话,会误解为“我喜欢隔壁班”“你喜欢我”,毕竟...
  • QFire
  • QFire
  • 2017-12-06 16:45:52
  • 233

主谓宾定状补口诀

主谓宾、定状补,主干枝叶分清楚。 定语必居主宾前,谓前为状谓后补。 状语有时位主前,逗号分开心有数。 基本成分主谓宾,连带成分定状补。 定语必居主宾前,谓前为状谓后补。 六者关系难分辨,心中...
  • qq1175421841
  • qq1175421841
  • 2016-05-24 18:55:04
  • 1492
收藏助手
不良信息举报
您举报文章:[python 主谓宾否]正则表达式+jieba分词
举报原因:
原因补充:

(最多只允许输入30个字)