python——常用功能之文本处理

在生活、工作中,python一直都是一个好帮手。在python的众多功能中,我觉得文本处理是最常用的。下面是平常使用中的一些总结。环境是python 3.3

0. 基础

在python中,使用str对象来保存字符串。str对象的建立很简单,使用单引号或双引号或3个单引号即可。例如:

s='nice'      #output: nice
s="nice"      #output: nice
s="Let's go"  #output: Let's go
s='"nice"'    #output: "nice"
s=str(1)      #output: 1
s='''nice
day'''        #output: nice
              #output: day

在python中,\n代表换行符,\t代表tab键

在python中,引用str中的某一段的内容很容易。例如:

s='123456789'
s[0]          #第一个字符:     output: 1
s[-1]         #倒数第一个字符: output: 9
s[:2]         #前2个字符:     output: 12
s[-2:]        #后2个字符:     output: 89
s[2:-2]       #去掉前2个和后2个剩余的字符 output:34567

 在python中,判断某一字符串是否在另一个字符串中:

'nice' in 'nice day&
  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
好的,Python 计算思维训练——字典和字符串(一)。 在Python中,字典(dictionary)是一种非常有用的数据结构,它可以存储键值对(key-value pairs),并且可以根据键快速地查找相应的值。字典的键必须是不可变的类型,比如字符串、整数或元组等,而值可以是任意类型。字典的语法使用花括号 {},并且键值对之间用冒号 : 分隔。 例如,下面的代码创建了一个简单的字典,其中包含了三个键值对。 ``` info = {'name': '张三', 'age': 18, 'gender': '男'} ``` 你可以通过以下方式访问字典中的值: ``` print(info['name']) # 输出:张三 print(info['age']) # 输出:18 print(info['gender']) # 输出:男 ``` 如果字典中不存在指定的键,则会抛出 KeyError 异常。你可以使用字典的 get() 方法来避免这种异常,该方法在键不存在时会返回一个默认值(默认值为 None)。 ``` print(info.get('address')) # 输出:None ``` 另外,你可以使用 in 关键字来检查一个键是否存在于字典中。 ``` print('name' in info) # 输出:True print('address' in info) # 输出:False ``` 除了创建字典,还可以通过字典推导式来创建字典。字典推导式的语法与列表推导式类似,只不过使用花括号 {} 来表示字典。 例如,下面的代码创建了一个简单的字典,其中包含了前五个自然数的平方。 ``` squares = {x: x**2 for x in range(1, 6)} print(squares) # 输出:{1: 1, 2: 4, 3: 9, 4: 16, 5: 25} ``` 接下来,我们来看一下字符串(string)的相关操作。字符串是 Python 中最常用的数据类型之一,它可以用来表示文本或字符序列。Python中的字符串是不可变的,也就是说,一旦创建了一个字符串,就不能修改它的内容。 你可以使用单引号、双引号或三引号来创建一个字符串。如果字符串中包含了单引号或双引号,则需要使用转义字符 \ 来表示。 例如,下面的代码分别创建了三个字符串,分别使用了单引号、双引号和三引号。 ``` s1 = 'Hello, world!' s2 = "Python is awesome!" s3 = """This is a multi-line string that spans multiple lines.""" ``` Python中的字符串支持许多常用的操作,比如字符串拼接、字符串截取、字符串替换、字符串查找等等。在后面的训练中,我们会逐一介绍这些操作。 好了,以上就是本次的 Python 计算思维训练,主要介绍了字典和字符串的基本使用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值