【python】
文章平均质量分 51
Bruce-XIAO
这个作者很懒,什么都没留下…
展开
-
实用小工具-python esmre库实现word查找
在文本中匹配特定的字符串,一般可以用普通的字符串匹配算法,KMP算法;python中提供了一个库esmre, 实现字符串查找原创 2024-06-11 22:15:53 · 316 阅读 · 0 评论 -
pandas保存dict字段再读取成DataFrame
pandas DataFrame中有字段是dict类型,使用普通的to_excel方法直接保存下次读取出来,dict字段会变成字符串,无法识别;目标:保存dict字段,下次读出来还是dict。以下两种读法可能会因json文件过大出错。保存到文件之前,需要。原创 2024-04-21 17:52:35 · 427 阅读 · 1 评论 -
pandas fillna多列无效
pandas缺失值填充原创 2023-07-20 14:30:33 · 464 阅读 · 0 评论 -
python的基础知识
python基础知识原创 2022-08-07 18:01:12 · 308 阅读 · 0 评论 -
pandas的一些操作总结
pandas的一些数据处理操作原创 2022-08-06 19:51:52 · 412 阅读 · 0 评论 -
plt.bar柱状图减小柱子之间的间隔
import matplotlib.pyplot as plttaxinyc = { 'gdc':{ 'rmse': { '16': 0.6367, '32': 0.6226, '64': 0.6178, '128': 0.6088 }, 'mae': { '16': 0.1596, '32': 0.153原创 2022-02-14 16:51:09 · 4398 阅读 · 0 评论 -
pandas.DataFrame.reset_index()方法
reset_index()重要参数:drop : boolean, default False。因为在一些操作比如groupby之后会将原有的row打乱,导致索引顺序随之变化(不按原来的顺序)drop=True, 删除原有索引,建立新索引, drop = False 保留原有索引,添加重置索引。两者的区别在一是否删除原来的Indexdf.groupby(by='colA').reset_index(drop=True) #按colA分组,并删除旧索引,建立新索引inplace : boole原创 2022-01-17 21:13:59 · 2495 阅读 · 0 评论 -
spark执行原理
spark执行原理第一阶段:RDD+算子组成的有向无环图第二阶段:DAGScheduler根据宽窄依赖将图划分成不同阶段的任务,并打包成TaskSet第三阶段:由TaskScheduler遍历TaskSet 将TaskSet中的每个任务发送至worker执行第四阶段:Worker线程池执中线程行任务执行速度由 rdd中分区数量、stage的个数、和woker中核的数目决定重试机制若task发送失败,TaskScheduler会重试发送3次,3次依然失败,由DAGScheduler重新提交任务原创 2021-10-23 20:43:45 · 637 阅读 · 0 评论 -
Pyspark 数据类型及转换及列表转单列
Pyspark 数据类型及转换Spark 数据类型ByteType, 1-byteShortType, 2-byteIntegerType, 4-byteLongType, 8-byteFloatType, 4-typeDoubleType, 8-byteDecimalType, arbitrary sided decimal numbersStringTypeBinaryTypeBooleanTypeTimetampTypeDateType. Year month, da原创 2021-10-14 11:42:01 · 5845 阅读 · 0 评论 -
Python使用过程的 Bug 集
Pandas apply 返回多列原先是想通过np.vectorize() 逐行处理DataFrame, 并返回几个新的字段,出现错误ValueError: setting an array element with a sequence.def test(): arr = np.random.randn(4,4) cols = ['a', 'b', 'c'] df = pd.DataFrame(data=arr,columns=['e','f','g','h']) de原创 2021-08-17 17:37:26 · 405 阅读 · 0 评论 -
特征工程之获取timeofday、dayofweek、isweekday,并进行one-hot编码
在做预测时,需要获取一天中的第几小时、一周中的第几天、是工作日还是周末等信息,将其进行one-hot编码并输入到模型中。最终格式,(时间片数,时间特征维度)import pandas as pdimport numpy as npimport timedef timestamp2vec(timestamps): # tm_wday range [0, 6], Monday is 0 and sunday is 6 #7872 vec = [time.strptime(st原创 2021-01-29 23:16:54 · 709 阅读 · 0 评论 -
pytorch transpose与permute函数
pytorch transpose与permute函数pemute可以对高维,2阶或以上矩阵进行重排列,或者说转置,而transpose只能对两个维度进行调换b = torch.tensor([[[1,4],[2,5]],[[3,7],[4,6]]])b.shapeOut[36]: torch.Size([2, 2, 2])bOut[37]: tensor([[[1, 4], [2, 5]], [[3, 7], [4, 6]]])b.per原创 2020-12-20 15:20:17 · 2408 阅读 · 1 评论 -
numpy和pandas保存文件
numpy 保存单个数组import numpy as npa = np.zeros((3,4))np.save('a.npy',a)#保存b = np.load('a.npy')#读取numpy 保存多个数组保存多个数组,按键值对保存,保存到文件中的键可以自定义a = np.zeros((3,4))b = np.zeros((4,4))np.savez('arr.npz',a=a,b=b) #数组名为a和b#加载arr =np.load('arr.npz')..原创 2020-12-17 17:11:17 · 1010 阅读 · 0 评论 -
pandas datetime64与unix时间戳互转
在用pandas处理数据时,经常要处理一些时间类型数据,经常把pandas时间类型与datetime模块,还有python自带的time模块搞混淆,记录之。unix 时间戳与pandas中的Timestamp互转:import timedef unixToTime(unixtime): return pd.to_datetime(unixtime,unit='s',utc=True).tz_convert('Asia/Shanghai') #utc时间比上海时间少8小时,做时区转换d原创 2020-12-16 22:35:39 · 3019 阅读 · 2 评论 -
pandas使用
笔记来自b站:Numpy &Pandas(莫烦 Python 数据处理教程),总结如下:pandas简介pandas 是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高...原创 2019-10-25 19:58:40 · 1025 阅读 · 0 评论 -
最长公共子序列python实现
最长公共子序列python实现1、dp基本思路:公共子序列最优子结构:将问题分解表成更简单的子问题,这个子问题可以分解成更多的子问题使用动态规划算法求解,这个过程需要在一个表中储存同一级别的子问题的解,因此这个解可以被更高级的子问题使用。2、问题的解定义两个序列X、Y,二维数组f[i][j]表示X的i位和Y的j位之前的最长公共子序列长度,则有f[1][1] = same(1...原创 2019-08-14 23:43:01 · 1878 阅读 · 0 评论