尊敬的读者您好:笔者很高兴自己的文章能被阅读,但原创与编辑均不易,所以转载请必须注明本文出处并附上本文地址超链接以及博主博客地址:https://blog.csdn.net/vensmallzeng。若觉得本文对您有益处还请帮忙点个赞鼓励一下,笔者在此感谢每一位读者,如需联系笔者,请记下邮箱:zengzenghe@gmail.com,谢谢合作!
1、判断某一列的值是否包含另一列的值
#采用pandas进行处理
import pandas as pd
data = {'姓名1':['贺增增','许嵩','张淑慧'],'姓名2':['增增','薛之谦','贺小增']}
df = pd.DataFrame(data)
df = df[df.apply(lambda x: x.姓名2 not in x.姓名1, axis=1)]
测试输出:
姓名1 地址2
1 许嵩 薛之谦
2 张淑慧 贺小增
2、python中,如果数据过长,想直接使用str强制转化为字符串,会得到中间为...的字符串,很显然这样的字符串是不全的,可以考虑直接用with open打开生成字符串。
with open('/Users/hezz/PycharmProjects/test/tmp_adam_dnis_20200810_1w.txt') as f:
X1 = f.read()
3、 pandas读取数据时,如果某字段首位为0,则在pandas读取数据后可能会存在首位0的丢失,建议采用dtype=str来避免该问题,如下:
df2 = pd.read_csv("/Users/hezz/PycharmProjects/test/etl_hinfo_mhotel_tel_20200808_1w.txt", sep='\001',
header=None, low_memory=False, dtype=str)
日积月累,与君共进,增增小结,未完待续。