python
爱coding的白兰客
这个作者很懒,什么都没留下…
展开
-
pyspark入门
SparkContext是任何spark功能的入口点,sc。原创 2021-08-23 15:35:48 · 298 阅读 · 0 评论 -
python 获取一个目录下的所有文件
本质就是树的遍历,python不太会写递归,用了个辅助栈import os, jsonframe_root = 'xxx'frame_list = []stack = [frame_root]while len(stack) != 0: node = stack.pop() for sub_node in os.listdir(node): sub_node = node + '/' + sub_node if not os.path.is原创 2021-06-05 10:56:56 · 109 阅读 · 0 评论 -
python 超时跳过
下载大量数据时很好用import eventlet eventlet.monkey_patch() with eventlet.Timeout(2, False): #超时时间为2秒 # do print('ok')print('fail')原创 2020-07-14 14:30:37 · 701 阅读 · 0 评论 -
numpy save & load
1.保存为二进制文件(.npy/.npz)numpy.save保存一个数组到一个二进制的文件中,保存格式是.npy参数介绍numpy.save(file, arr, allow_pickle=True, fix_imports=True)file:文件名/文件路径arr:要存储的数组allow_pickle:布尔值,允许使用Python pickles保存对象数组(可选...原创 2020-04-12 10:13:09 · 4023 阅读 · 0 评论 -
python 数据操作(numpy、re)
一维数组可直接统计学计算多维的制定某行或列也可以 r = np.arange(36).reshape((6,6))得到的1到36的二维数组(一般不说矩阵,就说几维数组,这样可以统一称法与用法) np.array([1,2,3])可以把list或df?变成array,但是必须要统一元素类型(这也是他比list效率高的一个原因) reshape很常用 每次控制维度常常思想不清楚,x是选“行...原创 2019-09-05 17:38:24 · 364 阅读 · 0 评论 -
IDE使用技巧(pycharm、jupyter)
服务器watch -n 0.5 nvidia-smi 一直查看pycharmmain直接出来jupyter鼠标按着ctrl 可以直接两行一起打字所有的IDE都可以:按住Alt可以随便框选codeblocksF9编译+运行。F5设置断点...原创 2019-08-29 10:42:02 · 161 阅读 · 0 评论 -
python 基础杂记&好用技巧
好用的zip:(顺带df.iterrows()) for x,y in zip(self.df_train.iterrows(), self.df_test.iterrows()):#取出每一行的row。个人习惯 ij是index,xy是val corpus.append(str(x[1]['title'])+';'+str(x[1]['content']))#...原创 2019-08-26 14:49:16 · 161 阅读 · 0 评论 -
数据可视化(matplotlib、seaborn等)
数据竞赛之类(其实也就是一般项目吧)一般首先要做的就是可视化,可以直观得看到数据分布,虽然目前数学水平可能达不到识别某分布适合什么模型(eg非高斯分布做变换转高斯分布),但是至少可以直观了解数据情况。matplotlib类似MATLAB风格的功能强大、跨平台,但是相对底层,需要写大量的boilerplate code,so有了seaborn这种mpl基础上的API,有更多简单的高级函数,并...原创 2019-07-08 10:57:52 · 322 阅读 · 0 评论 -
数据处理与储存(pandas、openpyxl、h5py)
pandas查找技巧。loc、iloc,3rd例子如果是df的话,选中的是某一列,4th例子是说明可以用list查找多个case:找高影响因子的SCI,这里主要复习了pandas的取行、删除(行列、inplace)按条件找index、df的拼接、写文件import pandas as pddf1 = pd.read_excel('SSCI目录.xlsx')tot1 = df1...原创 2019-06-21 11:32:27 · 566 阅读 · 1 评论 -
python 坑
变量作用域问题总结:等号赋值都会创建新对象 不可变变量的修改会创建新对象 可变对象修改就在原始地址上改 传参都是引用 1、赋值问题不可变对象(各类容器)不可变对象+=后,地址也改了 也就是说创建了一个新的对象 可变对象(int那些+tuple),;且+=后,地址不变; 注意:如果都是用“=”重新赋值,地址都会变 以后写程序的时候,要注意不要让后面的值修改前...原创 2019-05-24 09:10:11 · 742 阅读 · 0 评论 -
python 面向对象编程
参考资料:廖雪峰零、初衷我们之前习惯于过程式编程,因为习惯了在OJ上快速出结果,往往忽略了代码的可读性、可塑性与重用性,也容易使得代码不方便调整,在以后可能会浪费更多的时间。而在以后的工程代码里,面向对象思想需要加强,因为面对几千几万行代码的时候,函数的堆砌是十分可怕而不可取的。我们应该首先在设计思想上进行转变。面向过程的程序设计 把计算机程序 视为一系列的命令集合,即一组函数的顺序...原创 2019-05-02 16:55:30 · 163 阅读 · 0 评论