【python】正则表达式处理文章,结构化和提炼大意方法1

原创 2018年04月15日 19:58:47
>>> import re
>>> end = re.compile(r'[u4e00-\u9fa5].$')
>>> start = re.compile(r'[u4e00-\u9fa5].')
>>> with open('E:/切图.txt','r')as f:
...   for line in f:
...     s = start.search(line)
...     e = end.search(line)
...     print(s,e)
...
<_sre.SRE_Match object; span=(0, 2), match='切图'> <_sre.SRE_Match object; span=(0, 2), match='切图'>
None None
<_sre.SRE_Match object; span=(1, 3), match='广东'> <_sre.SRE_Match object; span=(14, 16), match='协会'>
None None
<_sre.SRE_Match object; span=(36, 38), match='粤教'> <_sre.SRE_Match object; span=(47, 49), match='1号'>
None None

---------------------------------------------------------------------------

报错:

>>> with open('E:/切图.txt','r')as f:
...   for line in f:
...     s = start.search(line)
...     e = end.search(line)
...     print(s.group())
...     print(e.group())
...
切图
切图
Traceback (most recent call last):
  File "<stdin>", line 5, in <module>
AttributeError: 'NoneType' object has no attribute 'group'

-----------------------------------------------

参考:https://blog.csdn.net/love_dl_forever/article/details/78857030 跳过异常继续运行

        https://zhidao.baidu.com/question/618075492622487932.html

>>> with open('E:/切图.txt','r')as f:
...   for line in f:
...     s = start.search(line)
...     e = end.search(line)
...     try:
...       print(s.group())
...       print(e.group())
...     except:
...       print('wrong')
...
切图
切图
wrong
广东
协会
wrong
粤教
1号
wrong
广东

----------------------------------------------------------------------

>>> end = re.compile(r'[u4e00-\u9fa5]..$')
>>> start = re.compile(r'[u4e00-\u9fa5].')
>>> with open('E:/切图.txt','r')as f:
...   for line in f:
...     s = start.search(line)
...     e = end.search(line)
...     try:
...       print(s.group())
...       print(e.group())
...     except:
...       print('wrong')
...
切图
wrong
wrong
广东
家协会
wrong
粤教
61号
wrong
广东
的通知
wrong
各普
>>> with open('E:/序言.txt','r')as f:
...   for line in f:
...     s = start.search(line)
...     e = end.search(line)
...     try:
...       print(s.group()+e.group())
...     except:
...       print(' ')
...
美国版序言



  历史。
这种要性;
很少子了。
企图时代。
最后分的。
本书授过。
正如过我。

伯特·罗素
>>>



深入对比数据科学工具箱:Python和R 非结构化数据的结构化

概述在现实场景中,由于数据来源的异构,数据源的格式往往是难以统一的,这就导致大量具有价值的数据通常是以非结构化的形式聚合在一起的。对于这些非结构化数据,最常见的数据结构就是JSON,而对应的数据库就是...
  • lzxyzq
  • lzxyzq
  • 2016年08月08日 10:52
  • 823

python--字典和结构化数据

字典数据类型>>> myCat = {'size':'fat','color':'gray','disposition':'loud'} >>> myCat['size'] 'fat' >>> '颜色...
  • qq_36482772
  • qq_36482772
  • 2016年12月13日 08:28
  • 179

python学习-结构化的文本文件

结构化的文本文件 结构化的文本有很多格式,区别它们的方法如下: 分隔符, 比如tab(‘\t’)、逗号(‘,’)或竖线(‘|’)。 如:逗号分隔值(csv) ‘’标签, 如XML 和 HTML 标点...
  • u013344309
  • u013344309
  • 2017年03月29日 20:52
  • 751

正则表达式 分组捕捉

正则表达式在字符串处理中经常使用,关于正则简单的用法相信有一点程序基础的人都懂得一些,这里就不介绍简单基础了。这里主要讲解一下在JAVA中实现了的正则的高级用法-分组与捕获。     对于要重复...
  • MUTOUYIHAO
  • MUTOUYIHAO
  • 2011年12月05日 14:27
  • 8531

Python(10):文本处理,正则表达式

os.getcwd() 返回当前目录 >>> os.getcwd() 'C:\\Users\\Administrator\\AppData\\Local\\Programs\\Python\\Pyth...
  • u012175089
  • u012175089
  • 2017年02月28日 23:03
  • 2675

Python中的结构化数据分析利器-Pandas简介

来自:http://cloga.info/python/%E6%95%B0%E6%8D%AE%E7%A7%91%E5%AD%A6/2013/09/17/pandas_intro/#wat_e_0aa4...
  • fennvde007
  • fennvde007
  • 2014年07月10日 15:14
  • 1778

正则表达式提取数字

///   /// 获取字符串中的数字  ///   ///   ///   private int GetNumber(string par)  {   string strTempContent ...
  • JOHNCOOLS
  • JOHNCOOLS
  • 2006年12月11日 15:54
  • 782

Spark经典案例7-非结构数据处理

非结构数据处理
  • yjgithub
  • yjgithub
  • 2017年02月08日 15:07
  • 952

文章观点提取的几种测试

有需求要从文章里面如果有观点就摘出来,没有观点就放过去,在一开始的demo中我尝试了2种办法。 首先对文本进行一些必要的清洗处理,去掉无意义符号,去掉前后空格等等,然后将文章分割成N个句子,...
  • fzu_rookie
  • fzu_rookie
  • 2016年08月25日 09:30
  • 1007

Python 使用正则表达式 - 1

正则表达式 python
  • hjh00
  • hjh00
  • 2015年08月19日 16:20
  • 1131
收藏助手
不良信息举报
您举报文章:【python】正则表达式处理文章,结构化和提炼大意方法1
举报原因:
原因补充:

(最多只允许输入30个字)