python的一些使用技巧与爬过的坑

本文主要列举了一些我在python使用过程中用的一些技巧与爬过的坑,后面如果有更多的内容会做相应的更新。

宝贝儿们,卑微小李的公众号【野指针小李】已开通,期待与你一起探讨学术哟~摸摸大!

1 dict的使用

python中的字典应该是许多朋友常用的一种数据结构,其数据结构如下:

{key: value}

这里主要列几个字典使用的技巧。

1.1 dict的删改查

其实对于dict的删改查都需要用到查询,比如改,就是先查询到某个键值对,然后再做更改操作。

可能许多初学者对于字典的访问是如下几种方式:

for k, v in d.items():
	balabala
for v in d.values():
	balabala

其实这是一种特别浪费性能的操作方式,因为python中的dict是通过Hash方式来查询键的。简单来说就是查询键的时间复杂度是 O ( 1 ) O(1) O(1),而查询值的时间复杂度是 O ( n ) O(n) O(n)。放在代码里面来说,就是:

for k in d.keys():

这种查询方式是 O ( 1 ) O(1) O(1)的时间复杂度,而:

for k, v in d.items():

或者:

for v in d.values():

O ( n ) O(n) O(n)的时间复杂度。

所以为了节省查询时间,我们如果要对值进行操作,都是如下:

for k in d.keys():
	val = d[k]

而python三大数据结构:列表、元组、字典,就只有字典的键的查询是 O ( 1 ) O(1) O(1)的时间复杂度,其余的都是 O ( n ) O(n) O(n)的时间复杂度。

1.2 dict的键

既然上面已经说到了dict的键是hash查询的,所以dict的键有严格的要求,就是hashable的数据才能作为dict的键。

那么何为hashable?简单来说,就是在运行过程中不可修改的。

就比如列表就是可以修改的,因为列表可以随时进行append等操作,字典也是可以修改的,比如随时可以进行pop等操作。

那么什么是hashable的呢?常用的字符串、数字这些都可以,还有一个数据结构是hashable的,就是元组,因为元组是无法被修改的。所以当你想要存储一组数据作为键值的时候,可以考虑将这组数据转换成元组,毕竟list和dict是可以相互切换的嘛。

2 numpy

2.1 array

这是我最近编码过程中遇到的一个坑,就是array的赋值操作。我们通常的赋值操作就是:

a = b

但是对于numpy的ndarray对象,这种赋值不仅会将值赋过去,还会把内存地址赋值过去,比如如下代码:

import numpy as np

a = np.array([1, 2, 3])
print("id(a):", id(a))
b = a
print("id(b):", id(b))
print(id(a) == id(b))

输出结果如下:

id(a): 2721844244768
id(b): 2721844244768
True

也就是说,如果你只是使用a = b这种操作,那么你在对b进行操作的时候也会更改a,但是如果在某个使用场景,你需要对b进行操作,但是不改变a,那么要用如下的代码(b = a.copy()):

import numpy as np

a = np.array([1, 2, 3])
print("id(a):", id(a))
b = a.copy()
print("id(b):", id(b))
print(id(a) == id(b))

输出结果:

id(a): 1549742256336
id(b): 1549742141968
False

3 文件操作

3.1 pickle

pickle是大家常用的一个文件,最大的优点在于什么东西存储进去,就可以读取什么东西出来

pickle是以二进制方式进行存储与读取的,比如下面的栗子:

import pickle

with open(filepath_1, 'rb') as f:
	file = pickle.load(f)

with open(filepath_2, 'wb') as f:
	pickle.dump(file, f)

但是可能有许多初学者会在写入pickle的时候选择追加方式写入(比如爬虫中断等情况),但是这种方式是不可行的。因为pickle是二进制操作,如果以追加方式写入,那么你在读取的时候只能读取到第一次写入的内容,之后的内容是无法读取的

那么在这种有可能因为中断等原因需要一直添加内容到pkl里面,我比较推荐分成不同份的文件进行保存,既可以保证文件能够正常的读取,也不用担心因为程序中断而导致需要重新执行的问题。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值