- 博客(15)
- 收藏
- 关注
原创 pd学习,缺失
缺失信息的统计这里写的是isna 或isnull ,其实我用的只有后面这个,图方便我们就看看这个没啥意义,因为太多了看不到,我们要统计下当然,这里也有特殊的搜索渠道,一般来说,用的比较少数据删除这里介绍的是dropna函数,默认是删除行(事实上,我用的都是删除列)这个就相当于是高和重里面有一个是确实的,我们都删了,所以是删了174行填充值,明天补充~~...
2021-01-03 22:57:23 155
原创 pd学习Task6
连接这个其实我SQL里面学过,基本上用的SQL里面的会比较多,一共是利用了左连接右连接,里连接和外连接,这里也都有涉及当然,我们先读取数据再说牛逼,这里的是文件夹,里面有很多的表 首先得学会如何批量读取import pandas as pdimport numpy as npdate_range函数是生成一个固定频率的时间索引,其中periods:固定时期,取值为整数或Nonefor i in date: df=pd.read_csv('data/us_report/' + d +
2020-12-29 21:42:43 160 1
原创 pd学习 tesk05
变形事实上,这个我是没有听说过和使用过,算是一个全新的学习类似于是把表格的索引改变,一共有如下几个函数df = pd.DataFrame({'Class':[1,1,2,2],'Name':['San Zhang','San Zhang','Si Li','Si Li'], 'Subject':['Chinese','Math','Chinese','Math'], 'Grade':[80,75,90,85]})df.pivot(index='Name', columns='
2020-12-27 23:24:06 181
原创 pd学习 tesk04
分组df = pd.read_csv('data/car.csv')找到分组的本质意义:其实就是以某个单位对什么进行分组写法为df.groupby(分组依据)[数据来源].使用操作我们读取了习题的数据,并进行了基本的分组df.groupby('Brand')['Mileage'].mean()df.groupby(["Country","Type"])['Mileage'].mean()也可以设定条件语句condition = df.Weight > df.Weight.me
2020-12-24 10:57:43 123
原创 pd学习tesk3
索引import pandas as pdimport numpy as npdf = pd.read_csv('data/company.csv')df.head()这里,我们索引基本的列名df['age'].head()当然,也可以多个索引df[['age','EmployeeID']].head()因为这里[]是索引,索引就会打2个[]才可以当然,也有行索引,我看了手册。其实只要用loc就可以了df.loc[1]这个是根据最左边的id编号搜索的也可以这样df
2020-12-22 23:20:50 214
原创 pd学习 tesk2
pd基础文件读取这里基本上说的是指令,所以我就直接拿题目demoimport pandas as pdimport numpy as npdf = pd.read_csv('pokemon.csv') 当然,这里可以读取前几行与后几行的指令。通常来说,我一般就是用来看看基本情况而已df.head(3)# Name Type 1 Type 2 Total HP Attack Defense Sp. Atk Sp. Def Speed0 1 Bulbasaur Grass Poison
2020-12-19 03:10:37 263 2
原创 pandas 学习 tesk1
py基础知识理解for的使用,这个是我写的函数import pandas as pdl=[]def my_func(x): return 2*xfor i in range(5): l.append(my_func(i))l[0, 2, 4, 6, 8]相等于此代码[my_func(i) for i in range(5)]本质上是:把 A(i) for i in B 意思是把 A(函数) i为A里面的内容 B为for循环对象。基于此理解,多层嵌套就有了如下
2020-12-16 13:58:17 234 3
原创 tesk5
终于结束了,虽然模型融合没有真意义上demo完成。 采用的是得到的lgb模型,通过训练集带入测试得到的结果,当然敷衍提交的结果也不太好。总之,还是很很大的收获
2020-09-27 22:45:35 64
原创 tesk5
模型融合这里,我并没有成功demo。思路是依据lgb得到的模型 在训练集合种得到测试集 并提交结果。很遗憾没有进入排名~~·哈哈 不过这一路走来 真的感觉安排时间学习还是有蛮难的。
2020-09-27 22:40:25 90
原创 tesk4
建模与调参建模这里其实有很多种思考方式,在这里我采用的是传统的ML的LGB模型,如果使用DL中的时间序列模型可能效果也会好些,但是这样的数据预处理要稍作修改,这里我没有修改。调参一共分为3种,我才用的是传统的网格调参模型验证方面 我采用的是交叉验证 设k=10,并且设置基本的参数...
2020-09-27 22:32:15 97
原创 金融风控2
特征选取因为之前做过相关的特征分析,这里我们就针对查看相关的特征特性感觉有些数据存在nan,0值。而且,特征类型存在区别,需要给他们进行编码等操作。所以我们得先进行特征预处理。这种在匿名特征存在很多nan值,需要进行处理。常见的方法有用0补充,用周围的数值补充和...
2020-09-18 23:42:39 239
原创 零基础入门金融风控作业1
之前打过2个比赛:1.二手车交易预测 2.工业蒸汽预测 这次参加的这个风控预测都是抱着学习的心态来参加。赛题理解依据赛制是否预测用户贷款是否违约为任务,这个目的本质上是个二分类问题(后面根据模型再讨论),不过因为不了解相关内容,所以查了下相关资料发现了相关概念,这里存在样本不平衡的问题,所以再评分标准就需要使用下面AUC的概念。AUC:被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接
2020-09-14 23:19:30 152
转载 pyttorch 中LSTM参数的理解
参考:https://zhuanlan.zhihu.com/p/102904450 与嘉神的 https://blog.csdn.net/ssjdoudou/article/details/105566465 结束会使用自己的demo讨论
2020-08-10 16:18:39 230
原创 关于MATELAB2019bc++可能出现的问题
关于MATELAB2019bc++可能出现的问题安装工具包安装工具包需要在后面输入 mex -setup时,可能会出现:未找到支持的编译器。您可以安装免费提供的 MinGW-w64 C/C++ 编译器;请参阅安装 MinGW-w64 编译器。有关更多选项,请访问 https://www.mathworks.com/support/compilers 的情况,这个时候是因为mat目前没有c++...
2020-01-07 22:16:49 750
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人