python学习
量化橙同学
好好记录就是对曾经的负责,是对生命的珍视,对价值的保护,对勤奋的肯定,对灵魂的忠诚!
展开
-
python学习——一行代码提升pandas读取大文件速率
一行代码大大提升pandas读取csv的速度原创 2022-11-23 09:49:32 · 1233 阅读 · 1 评论 -
python学习——总结sklearn中的几个参数优化器
python学习——总结sklearn中的参数优化器原创 2022-10-26 12:53:09 · 1665 阅读 · 0 评论 -
python学习——发现python派生类不执行自己的初始化函数
发现python派生类不执行自己的初始化函数应该怎么办原创 2022-08-02 19:13:45 · 1262 阅读 · 3 评论 -
python学习——python datetime转13位时间戳(精确到毫秒)
参考代码如下所示:from datetime import datetimedtime = datetime(2018, 1, 1, 20)print("Datetime: ", dtime) dtimestamp = dtime.timestamp()print("Integer timestamp in seconds: ", int(round(dtimestamp))) milliseconds = int(round(dtimestamp * 1000))print(原创 2022-03-07 14:35:27 · 2956 阅读 · 0 评论 -
python学习——一段代码实现 pandas series 多周期rolling平均
import numpy as npimport pandas as pdnp.random.seed(123)df = pd.DataFrame(np.random.randn(100,3)).add_prefix('col')windows = [5, 15, 30, 45]stats = ['mean', 'std']cols = pd.MultiIndex.from_product([windows, df.columns, stats],原创 2022-02-08 14:51:33 · 1298 阅读 · 0 评论 -
python学习——Convert a list of 2D numpy arrays to one 3D numpy array
https://stackoverflow.com/questions/4341359/convert-a-list-of-2d-numpy-arrays-to-one-3d-numpy-array?rq=1原创 2021-10-22 22:37:26 · 261 阅读 · 0 评论 -
python数据处理——合并最近时间戳的数据
pandas.merge:匹配最近的时间戳> =时间戳系列为了解决这个问题真的是花了我近两个小时的时间啊,孙继丰啊,孙继丰啊,你为什么就不能主动去问问题啊我有两个数据帧,两个数据帧都包含一个不规则间隔的毫秒分辨率时间戳列。我的目标是匹配行,以便对于每个匹配的行,1)第一个时间戳总是小于或等于第二个时间戳,2)匹配的时间戳对于满足1)的所有时间戳对最接近。merge()不能做这...原创 2021-08-21 16:43:47 · 869 阅读 · 0 评论 -
python学习——windows下pandarallel cannot find context for ‘fork‘
这个问题比较狗,需要进入到pandarallel 的包文件里,就是pandarallel 安装的位置就是xxx:xxx/site-packages\pandarallel\pandarallel.py这里,xxx是你的python安装目录,里面有一行context = get_context("fork")这里把fork改成spawn就行然后就可以了...原创 2021-08-17 10:26:58 · 4347 阅读 · 1 评论 -
python学习——使pandas进行并行化
看这个:https://blog.csdn.net/weixin_43064185/article/details/99552685原创 2021-08-10 10:41:26 · 493 阅读 · 0 评论 -
python学习——推荐一个常用的滤波器工具包filterpy
工具包名:filterpy主页链接:https://github.com/rlabbe/filterpy文档链接:https://filterpy.readthedocs.io/en/latest/安装方式:pip install filterpy一、filterpy.kalman包含很多滤波算法,例如:1.线性滤波算法:KalmanFilter、Saver、FixedLagSmoother、SquareRootKalmanFilter、InformationFilter、FadingKalman原创 2021-08-03 14:08:36 · 3777 阅读 · 0 评论 -
Python学习——pycharm中格式化json字符
ctrl+alt+L原创 2021-07-01 19:43:49 · 1329 阅读 · 0 评论 -
金融时间序列分析——对收益率序列平稳化处理
在逛博客的时候,从AI研习社里看到了一篇文章,最新的优化深度学习交易机器人技术,讲到了一个常用的方式,下图中的三个图中描述的时间序列分别是原始的价格数据,以及做了差分(比如一步的差分其实就是今天的价格和昨天的价格相减再除以昨天的价格),以及对原始数据取对数然后再差分的时间序列的图。之所以这样处理的原因是数据不是平稳的,因此,任何机器学习模型都很难预测未来值。 最重要的是,我们的时间序列包含明显的趋势和季节性,这两者都会影响我们的算法准确预测时间序列的能力。 我们可以通过使用差分和变换技术..原创 2020-10-10 13:03:23 · 3314 阅读 · 0 评论 -
python数据处理——locale.Error: unsupported locale setting解决办法
export LC_ALL=C原创 2020-09-20 00:28:22 · 2322 阅读 · 1 评论 -
python数据处理——字符特征转数字特征
feature = pd.factorize(feature)这样处理之后,就会把原来的那列含有字符串的数据,根据类别,处理为数值类型的数据原创 2020-08-07 14:14:21 · 2126 阅读 · 0 评论 -
python数据处理——攻破cookies之cf_clearance
可能很多小伙伴在做网站爬虫的时候,会遇到这样一种情况,在设置requests的header的时候,只设置User-Agent字段的时候,返回的结果是503,这时候的话,首先第一步要做的是看一看是不是自己之前太狂了,爬页面时候没加个延时,被对方主机干掉了,一般这种也不是永久性的。但是如果确定不是这种原因而是第一次就不行的话,那就可能是要用到本文提到的这个攻破cf_clearance的工具了。...原创 2019-03-19 09:18:54 · 7914 阅读 · 0 评论 -
python数据处理——对字典按照value进行排序
a = sorted(d.items(), key=lambda x: x[1])a1 = sorted(d.items(),key = lambda x:x[1],reverse = True)原创 2019-03-21 16:51:51 · 2803 阅读 · 0 评论 -
python数据处理——一些重要的工具包
中间的版本号不用在意,从别的地方粘过来的库名 版本 简介 网址arch 4.1 提供了Univariate volatility模型,Bootstrapping和Multiple comparison procedures https://pypi.python.org/pypi/archbeautifulsoup4 4.5.3 Python...原创 2019-04-10 17:09:36 · 1626 阅读 · 0 评论 -
python数据处理——pandas更换列名
import pandas as pddf = pd.DataFrame({'A:1,'B':2,'C:3})df = df.rename(columns={'A':'AA'})#即可完成列名称的更改,列A变为列AA原创 2019-04-09 14:49:24 · 7229 阅读 · 0 评论 -
python数据处理——去除list重复项
提供一个非常简单的方法:newlist = list(set(oldlist))原创 2019-06-08 10:20:57 · 2261 阅读 · 0 评论 -
量化投资学习——时间序列分析中的模型稀疏性问题
在分析量化交易模型中,经常会遇到一类问题就是:在万的和其他的平台上能获取各种各样的基本面指标,情绪指标,各种指标,我们当然可以用单因子分析的方法流程来处理,但是还是有一个问题是掩饰不住的,就是指标很多很多,但是样本点很少很少,这个时候其实总体来说预测因子的数目 p 特别大,而样本数量 n 却很小,毕竟每年才 240 多天, 因此,这属于 p>>n 的问题,属于高维统计(high-dim...原创 2019-06-08 21:23:09 · 1293 阅读 · 0 评论 -
量化投资学习——时间序列分析中的时频问题
这个文章呢,不是为了别的,是整理一下自己的一个想法,使用傅里叶变换来处理交易策略会不会有比较好的效果,众所周知,傅里叶变换是信号处理的一个利器,金融信号是不是也属于很多频率的信号,不同强弱的信号叠加的结果呢,这个文章先开着,下面会整理更多的资料来佐证我的这个假设...原创 2019-06-08 21:30:50 · 566 阅读 · 0 评论 -
python框架学习——schedule定时任务
对于定时任务,这个估计是每一个python的初学者都梦寐以求的吧,现在就有这么一个平台可以用,那就是schedule原创 2019-07-03 12:24:04 · 379 阅读 · 0 评论 -
python数据处理——选择一段时间内的数据
pandas.DataFrame.between_time链接:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.between_time.htmlDataFrame.between_time(start_time,end_time,include_start=True,includ...原创 2019-07-09 15:39:54 · 6281 阅读 · 0 评论 -
python数据处理——pandas按区间进行切分数据
import pandas as pd#设置切分区域listBins = [0, 10, 20, 30, 40, 50, 60, 1000000]#设置切分后对应标签listLabels = ['0_10','11_20','21_30','31_40','41_50','51_60','61及以上']#利用pd.cut进行数据离散化切分"""pandas.cut(x,bin...原创 2019-07-09 16:25:21 · 15818 阅读 · 0 评论 -
python数据处理——匹配最近的时间戳
题 pandas.merge:匹配最近的时间戳> =时间戳系列我有两个数据帧,两个数据帧都包含一个不规则间隔的毫秒分辨率时间戳列。我的目标是匹配行,以便对于每个匹配的行,1)第一个时间戳总是小于或等于第二个时间戳,2)匹配的时间戳对于满足1)的所有时间戳对最接近关键函数名称位searchsort(),这是一个在numpy下的函数,使用的方法如下所示:import pand...原创 2019-07-06 15:38:27 · 4399 阅读 · 1 评论 -
python基础——收录一些高级特性
1、python异步编程的由来,强烈推荐观看史上最全篇异步编程教程!神级程序员花了十五天才整理出来!超强2、操作系统中的锁机制操作系统中的锁机制3、python中的GIL详解4、python的select和epoll6、IO多路复用的三种机制Select,Poll,Epoll7、协程python协程8、分布式进程分布式进程...原创 2019-07-18 16:25:09 · 274 阅读 · 0 评论 -
python开发flask学习——将Python Flask应用程序拆分为多个文件
我创建一个web服务,我想把api分成不同的文件(AccountAPI.py,UploadAPI.py,…),只是所以我没有一个巨大的Python文件。我读过,你可以做到这一点与蓝图,但我不能完全确定路线是对我来说是正确的。最终我想运行一个主要的Python文件,并包括其他文件,以便当它运行时,它们被认为是一个大文件。例如,如果我有Main.py和AccountAPI.py我想能够这样...原创 2019-07-12 12:22:52 · 4405 阅读 · 0 评论 -
pandas中loc,iloc和ix的区别
pandas (loc、iloc、ix)的区别loc:通过行标签索引数据iloc:通过行号索引行数据,df.iloc[i]返回df的第i行。 i不引用索引标签,i是从0开始的索引ix:通过行标签或行号索引数据(基于loc和iloc的混合) 1.使用loc、iloc、ix索引第一行数据:(1) loc(2) iloc(3) ix ...原创 2018-11-15 11:12:26 · 735 阅读 · 0 评论 -
python获取数据——数据爬虫——代理池随机使用代理
proxy_list = [ 'http://117.177.250.151:8081', 'http://111.85.219.250:3129', 'http://122.70.183.138:8118', ]proxy_ip = random.choice(proxy_list) # 随机获取代理ipproxies = {'http': proxy_ip...原创 2019-01-18 15:48:07 · 4816 阅读 · 0 评论 -
python数据处理——使用pandas 压缩存储hdf5文件
这是一个比较扯的问题,如果你已经能够通过我找到的这几个博文解决的话,下面我的纠结和探讨就不用看了。如下:TuShare(3):使用pandas 压缩存储hdf5文件pandas写入读取h5文件Py之PyTables:PyTables的简介、安装、使用方法详细攻略解决问题ImportError: HDFStore requires PyTables, "No module nam...原创 2018-12-22 15:58:05 · 3625 阅读 · 0 评论 -
python数据处理——pandas Dataframe.mean()没有返回值,返回series[]
博主真真是个遍历BUG的小能手,这个问题的原因是在pd.read_csv()之类的操作时候,没有指定数值类型,导致的这个问题,因此包括在内的,数值运算之后数据变得很奇怪啊,数据为nan啊之类的问题都有解了,所以说,在read的时候,dtype一下,是一种态度要问我怎么发现的,我在使用DEBUG功能时候,使用了这个函数:意思就是对dataframe的某一列求均值啦,返回typeerror,我...原创 2019-01-11 10:12:14 · 6026 阅读 · 2 评论 -
Python isinstance() 函数
描述isinstance() 函数来判断一个对象是否是一个已知的类型,类似 type()。isinstance() 与 type() 区别: type() 不会认为子类是一种父类类型,不考虑继承关系。 isinstance() 会认为子类是一种父类类型,考虑继承关系。 如果要判断两个类型是否相同推荐使用 isinstance()。语法以下是 isinstan...原创 2018-12-03 13:14:44 · 284 阅读 · 1 评论 -
python string strip 和split
python strip() 函数和 split() 函数的详解及实例python strip() 函数和 split() 函数的详解及实例一直以来都分不清楚strip和split的功能,实际上strip是删除的意思;而split则是分割的意思。因此也表示了这两个功能是完全不一样的,strip可以删除字符串的某些字符,而split则是根据规定的字符将字符串进行分割。下面就详细说一下这两个功...原创 2018-11-30 12:30:15 · 356 阅读 · 0 评论 -
zip函数的高级用法
找了你一个多小时,终于找到了nums = ['flower','flow','flight']for i in zip(*nums): print(i)输出结果:('f', 'f', 'f')('l', 'l', 'l')('o', 'o', 'i')('w', 'w', 'g')原创 2018-12-04 14:15:05 · 508 阅读 · 0 评论 -
Python之2维list转置、旋转及其简单应用
Python之2维list转置、旋转及其简单应用 给一个矩阵,顺时针旋转顺序输出其元素,例如:对于矩阵:[ 1, 2, 3 ][ 4, 5, 6 ][ 7, 8, 9 ] 输出为:1,2,3,6,9,8,7,4,5 def transpose(matrix): return zip(*matrix)def rotate(matrix): ...转载 2018-11-23 16:02:42 · 7642 阅读 · 0 评论 -
利用Python进行数据分析阅读笔记(一)
数据规整化:清理,转换,合并,重塑转置(transpose) 实现的几种方式: import numpy as nparr = np.arange(15).reshape((3,5))print(arr)print(arr.T)print(zip(*arr))[[ 0 1 2 3 4] [ 5 6 7 8 9] [10 11 12 13 14]]...原创 2018-11-23 16:20:33 · 290 阅读 · 0 评论 -
代替for循环的方法
为什么要挑战自己在代码里不写for loop?因为这样可以迫使你去使用比较高级、地道的语法或库。文中以python为例子,讲了不少大家其实在别人的代码里都见过、但自己很少用的语法。这是一个挑战。我要你避免在任何情况下写for循环。同样的,我也要你找到一种场景——除了用for循环以外,用其他方法写都太难。请分享你的发现,我非常想听到这些距离我开始探索超棒的Python语言特性已经有一段时间了...转载 2018-11-21 17:23:29 · 6888 阅读 · 0 评论 -
python里面的时间总结
python 时间模块小结(time and datetime)一:经常使用的时间方法1.得到当前时间使用time模块,首先得到当前的时间戳In [42]: time.time()Out[42]: 1408066927.208922将时间戳转换为时间元组 struct_timeIn [43]: time.localtime(time.time())Out[43]: tim...原创 2018-11-20 16:53:31 · 249 阅读 · 0 评论 -
python已知元素,获取元素索引(numpy,pandas)
目前搜索到的方法有:np.where(‘元素’)还有就是pandas的方法:df.index(‘元素’)但是第二个方法的问题就是会报错,嗯,这就比较尴尬了,查询了网上的解决方案,有这样的:此外使用df[df['列名'].isin([相应的值])]这个命令会输出等于该值的行。 此外如果想快速找到dataframe最后几行的话,可以使用的方法是tail,可以获取若干行的...原创 2018-11-15 16:21:31 · 4793 阅读 · 2 评论 -
一文教你学会python读取文本及字符串常用操作
python 读取txt文件打开支付宝首页搜索‘543701491’,领取马云的支付宝红包Python的文本处理是经常碰到的一个问题,Python的txt文件读取中,有三类方法:read()、readline()、readlines(),这三种方法各有利弊,下面逐一介绍其使用方法和利弊。read():read()是最简单的一种方法,一次性读取文件的所有内容放在一个大字符串中,即存在...原创 2018-10-13 11:07:48 · 6709 阅读 · 0 评论