- 博客(92)
- 资源 (20)
- 问答 (1)
- 收藏
- 关注
转载 第七章笔记(转载)
图中有FN个滤波器(卷积核)在tensorflow中,对于输入样本中channels的含义,一般是RGB图片,channels的数量是3(R、G、B);而灰度图是的channels是1.(灰度图只有一个变量表示颜色)上图中的C就是卷积核深度,卷积核深度就是输入图片的channel数量根据下面一个链接可知:...
2019-09-30 23:36:26 155
原创 关于高并发的一些笔记
四核八线程云主机,如果10w要求一秒内响应,后台处理200ms,且API属于CPU密集型,那么考虑最坏情况,假如这其中有1w个请求发生在同一时刻点。要在一秒内响应的话。。。需要的数量是?其实稍微思考下就可以知道,如果每200ms都只能完成1w个请求的处理,那么1s结束后就只能完成5w的请求.所以上面的问题是有毛病的,答案是至少是2500台.另外IO涉及...
2019-09-29 20:49:41 289
转载 知乎上砍手豪关于kaggle的观点(转载)
知乎上的砍手豪的kaggle主页是:https://www.kaggle.com/h4211819/competitions此人以数据挖掘为主,下面是他在知乎上写的我发现的比较有用的一些观点.比赛的一开始就有人教大家怎么probing leaderboard,如果用那些被探测到的数据,自然就很容易在LB混到好名次,所以比赛完了自然要掉名次。其次跟19%,81%没啥关系,照说本...
2019-09-29 19:23:12 1280
原创 Adam是RmsProp和momentum算法的结合(列表比较)
RmsPropMomentumAdamsdw=βsdw+(1−β)dW2{s_{dw}} = \beta {s_{dw}} + (1 - \beta )d{W^2}sdw=βsdw+(1−β)dW2sdb=βsdb+(1−β)db2{s_{db}} = \beta {s_{db}} + (1 - \beta )d{b^2}sdb=βsdb+(1−β)db2vdw=β...
2019-09-29 17:13:22 897 3
转载 快速保留小数点后面几位(转)
代码如下:import pandas as pdformater="{0:.03f}".formatdf1=pd.DataFrame({'a':[1.11111111111111,2.333333333333333,4.227722222222]})df1.applymap(formater) a0 1.1111 2.3332 4.228...
2019-09-28 18:07:27 385
原创 *** line xxxx of `fraud.data': bad value of xxxx for attribute `id_11'
Quinlan的C4.5以及C5.0在处理大数据的时候可能会碰到下面的问题。完整错误复现如下:*** line 52964 of `fraud.data': bad value of `92.41000366210937' for attribute `id_11'*** line 53380 of `fraud.data': bad value of `94.160003662...
2019-09-28 10:08:32 217
转载 awk或者sed识别和替换数据中最后一列的缺失值(转载)
###########################################################################目标:1,2,3,4,5,6,7,8,9,0,替换成:1,2,3,4,5,6,7,8,9,0,?######################QQ群中的方案######################################...
2019-09-27 15:59:38 1224
原创 tensorflow中的log中数字的含义
代码和log如下:https://github.com/appleyuchi/TPU_GPU_Code/blob/master/TPU%E8%BF%90%E8%A1%8CCifar10.ipynb代码的log中有:INFO:tensorflow:Finished compiling. Time elapsed: 5.899410247802734 secs10/10 [====...
2019-09-27 12:32:59 516
转载 dataframe的drop無效
temp.drop('TransactionID',axis=1)改成temp=temp.drop('TransactionID',axis=1)即可
2019-09-26 18:49:51 1052
原创 半监督训练-思想与代码实践
以IEEE-CIS-Fraud-Detection比赛为例半监督训练思想:test集没有标签,咋办呢?train集先建立一个model,Score要求在0.95以上;把该model预测得到的test的标签值isFraud赋值给test.这样,test集的isFraud就有了类别标签,上述的这种打标签的方式,称为"伪标签"。然后,把train和打了"伪标签的test集纵...
2019-09-25 22:58:15 405
转载 处理 read_csv 报错 OSError:Initializing from file failed
所有文件进行chmod 777 *.csv解决方案:pd.read_csv("your_file.txt", engine='python')
2019-09-25 17:25:12 327
转载 在DataFrame中新建列赋值后全部为NaN(转)
df['newColumn']=df_other['otherColumn']改为:df['newColumn']=list(df_other['otherColumn'])或者df['newColumn']=df_other['otherColumn'].values即可
2019-09-25 16:30:55 5718
原创 kaggle删除自己的数据集
第一步:第二步:点击test_isFraud以后,打开新页面,点击settings部分,然后点击Delete Dataset
2019-09-25 16:11:09 4492
原创 所有特征在不同分类之间、 train和test之间的列分布差异(图形绘制)
代码来自:https://www.kaggle.com/ragnar123/e-d-a-and-baseline-mix-lgbm代码本身有bug,下面已经修正----------所有特征在不同分类之间的概率分布差异---------------代码如下:def plot_feature_distribution(df1, df2, label1, label2, fea...
2019-09-24 17:45:02 821
转载 批量绘制train和test关于特征上的差异
https://www.kaggle.com/ragnar123/e-d-a-and-baseline-mix-lgbm代码如下:def plot_feature_distribution(df1, df2, label1, label2, features): i = 0 sns.set_style('whitegrid') plt.figure() f...
2019-09-24 16:06:36 294
转载 统计所有带有null的特征
以下代码仅仅适用于numerical特征,不适用于category特征代码如下:#统计有缺失值的特征列np.set_printoptions(threshold=2000)#全部输出 pd.set_option('display.max_colwidth',2000)#全部输出 pd.set_option('max_colwidth',2000)pd.set_option('di...
2019-09-24 14:10:52 304
原创 所谓的inference场景与深度学习终端加速器以及边缘计算和雾计算
AI包括两部分:1.广义的训练(含采集,特征工程以及狭义的训练和验证)2.inference场景(讲人话就是加载模型进行测试)。上面两个场景在初学者眼里都是一台电脑上跑着玩玩。因为深度学习模型比较庞大,所以加载(测试)速度缓慢。所以出来了一系列的解决方案,例如:百度的EdgeBoard和微软的Project Brainware.这两个东西干嘛的?讲人话:...
2019-09-23 23:34:05 728
原创 gensim在“中文查找(关键词)“与“txt文本“之间做相似度计算(返回最相似的文本)
#---------------------------------------------------------------下面本文目的-------------------------------------------------------搜索关键词,返回最相关的txt文本内容(模仿搜索引擎)#-----------------------------------------...
2019-09-22 21:36:14 880
转载 gensim出现segmentation Fault解决方案
具体报错为:segmentation-fault程式記憶體區段錯誤 (核心已傾印)解决方案:num_features=len(dictionary.dfs)
2019-09-22 20:56:42 558
原创 GPU代码修改成TPU代码
代码:https://github.com/appleyuchi/TPU_GPU_Code/blob/master/colab上使用GPU和TPU比较.ipynb这个代码是GPU和TPU的运行性能比较。用文本比较网站看了下代码的异同,总共有两处:---------------------第1处----------------------------GPU:model....
2019-09-22 17:30:18 1510
原创 TPU和GPU跑模型时间统计(持续更新中)以及TPU Research Cloud的申请
下面记录的训练时间就是所有数据开始训练到生成模型为止的时间,代码中都不包含交叉验证等策略。已经尝试过的实验如下:框架 数据集 代码 加速设备 平台 耗时 ResNet cifar10 TPU运行Cifar10.ipynb TPU Google Colaboratory 2000s XGBoost IEEE...
2019-09-22 16:54:00 2515
转载 AttributeError: 'Model' object has no attribute 'target_tensors'
使用TPU时候碰到的问题,完整问题复现如下:WARNING:tensorflow:Keras support is now deprecated in support of TPU Strategy. Please follow the distribution strategy guide on tensorflow.org to migrate to the 2.0 support...
2019-09-22 15:31:26 4179 1
原创 colab把数据放在content下面以及放在drive下面的训练速度比较
在知乎上听说数据集放在drive以及content下面的速度会不同,于是我就尝试了一下。代码和数据集使用kaggle中的IEEE Fraud: XGBoost with GPU (Fit in 40s)数据集大小为59w#############################放在drive下面(记得改路径)##################################...
2019-09-22 12:40:16 1794 5
原创 trust cv的含义
trust cv的含义是:1.对于新制造的特征,你的cv越高,那么你的LB也会越高。2.对于 保留/删除 一个特征,那么可能你的cv越高,LB越低;(模型过拟合),也可能cv越低,LB越低( 欠拟合)对于第二种情况,应该采取的办法是,train和test之间相似分布保留,其余不太相似但是接近的特征进行“数据松弛”后再次使用,这样会好些。...
2019-09-21 20:08:51 297
转载 解决git push 中remote: Permission to xxxxx.git denied to xxx. fatal: unable to access xxxx 403(转)
问题复现你在切换多个github账号的时候,很容易出现下面的这种问题问题描述今天我在使用git push 将修改的项目push到github中,出现:remote: Permission to xxxxx.git denied to xxx.fatal: unable to access 'https://github.com/ xxxxx.git/': > The re...
2019-09-21 17:33:06 3378 2
原创 colab中安装lightgbm的GPU版本
完整代码如下:%%time# CPU times: user 928 ms, sys: 328 ms, total: 1.26 s# Wall time: 43.7 s!rm -r /kaggle/working/lightgbm_kaggle !rm -r /kaggle/working/LightGBM!rm -r /opt/conda/lib/python3.6/site-p...
2019-09-20 21:08:39 1003
原创 colab文件夹上传到github
主要难处是notebook不是交互式的.所以没法在git commit 以及git push 运行后再携带参数.必须在运行的时候就携带用户名和密码参数,这样才能顺利push.完整流程如下:!git config --global user.name appleyuchi!git config --global user.email [email protected]...
2019-09-20 21:05:18 2161 2
原创 colab加载google drive并且调试时跳过不运行
因为第一次肯定是需要加载google drive的.但是后续我们希望不要再反复加载的情况下,依然可以"一键运行所有代码"那么怎么让程序跳过加载Google drive部分的代码呢?代码如下:try: print(drive)except: from google.colab import drive drive.mount('/content/drive')...
2019-09-20 19:22:29 705
原创 colab长时间处于正在连接
这个地方如果一直是"正在连接",那么说明你的网络出问题了.一般从你运行开始到这个连接上,绝对不会超过10s也可能出现下面这种问题错误未能执行单元格。无法向运行时发送执行消息:Error: SocketIO is not yet openedSocketIO is not yet openedError: SocketIO is not yet opened ...
2019-09-20 19:16:06 4534 4
原创 lightgbm的GPU训练速度比CPU速度还要慢是怎么回事
[1]中提到了链接[2],[2]中提到很多GPU是不被Lightgbm所支持的,也就是说,能跑,但是没发加速.即:是你显卡的锅.Supported HardwareWe target AMD Graphics Core Next ...
2019-09-20 18:12:25 3850
原创 colab从CPU切换到GPU以及配置查看
查看cuda版本以及驱动安装!nvcc-V!dpkg--list|grepnvidia-*运行结果如下:nvcc: NVIDIA (R) Cuda compiler driverCopyright (c) 2005-2018 NVIDIA CorporationBuilt on Sat_Aug_25_21:08:01_CDT_2018Cuda compilatio...
2019-09-20 18:00:28 12165 1
原创 kaggle notebook的配置查看以及kaggle的GPU与本地显卡性能比较
import torchprint(torch.version.cuda)!nvcc -V10.0.130nvcc: NVIDIA (R) Cuda compiler driverCopyright (c) 2005-2018 NVIDIA CorporationBuilt on Sat_Aug_25_21:08:01_CDT_2018Cuda compilation too...
2019-09-20 16:41:52 10387
原创 colab上下载kaggle上notebook输出的自定义数据集并永久存储到GoogleDrive
先网页下载,然后取消,这样就有下载连接了.输入:!wgethttps://www.kaggleusercontent.com/kf/19732370/eyJhbGciOiJkaXIiLCJlbmMiOiJBMTI4Q0JDLUhTMjU2In0..PJmrDbJDpf3VTQOaru44KA.UNWrA03IW2DnKsnIDktl61F9Lb5q_TKROjnE1ZQF...
2019-09-20 15:44:12 1120 1
原创 dataframe两列相乘构造新特征
假如我们要构建新特征b,目的是从a中筛选出数值在4~6之间的数据,如果符合就是True,否则就是False.那么代码如下:import pandas as pdlists=pd.DataFrame({'a':[1,2,3,4,5,6,7,8,9]})lists['b']=(lists['a']<6).mul(lists['a']>4)...
2019-09-20 14:39:26 5907
原创 There are NAN in the matrix, however, you did not set missing=NAN
解决方案:clf = xgb.XGBClassifier( n_estimators=500, max_depth=9, learning_rate=0.05, subsample=0.9, colsample_bytree=0.9, missing=np.nan, random_state=2019, tree_m...
2019-09-19 23:18:34 687
转载 dataframe输出某列的数据以及统计某列的取值种数+输出某行数据
输出某列的数据:train.ix[:,'bank_type']统计某列数据的取值分布:train['author'].value_counts(normalize = True, dropna = False).head()统计某列数据的取值种数:train['author'].value_counts(normalize = False, dropna = ...
2019-09-19 22:45:58 16931
原创 numpy中的clip函數的用法
>>> a =[2, 3, 1, 4, 10, 9]>>> np.clip(a, 3, 8)array([3, 3, 3, 4, 8, 8])意思是:a中比3小的全部改成3a中比8大的全部改成8
2019-09-19 11:04:31 210
转载 LBO验证与LBO_full验证的区别
LBO_full验证的意思是:除了留出一份作为特定的验证集以外,其余所有数据丢入训练中,每次训练都使用除了初始设定的验证集以外的所有数据进行训练,然后取平均NUMBER_OF_MODELS=3代码[1]如下:def make_predictions2(train_df,test_df,features_columns, target, lgb_params, NFOLD...
2019-09-18 23:14:43 462
原创 kaggle的discussion区都是些什么鬼?
Kaggle的discussion区域可以说是什么都有所以我想分下类,便于以后万一我看晕了可以方便我归类.Discussion内容分类 链接举例 发表豪言壮志 https://www.kaggle.com/c/ieee-fraud-detection/discussion/102070#latest-615146 发表获奖感言 https://www.k...
2019-09-18 17:20:57 423
原创 Colaboratory挂载google drive的两种网盘
如图:1.点击"文件"2.点击"装载GOOGLE"云端硬盘,然后右侧会跳出蓝色提示(左侧的drive一开始是没有的)3.运行代码,会得到一个链接:点击上面的链接,会跳出一个新的网页,点击允许,跳到新网页:点击右侧的复制按钮.验证码粘贴到这两行代码下面的输入框里面,输入完之后按下回车键即可4.然后左侧的drive文件夹就会出现了,如下:...
2019-09-18 11:43:51 1349
ngrok-stable-linux-amd64.zip
2019-11-18
VBoxGuestAdditions_5.2.18.iso
2019-04-27
pearson证明卡方检验的原文-1900年
2018-12-07
用于ubuntu16.04下安装mongodb时缺少的库文件
2018-08-08
浙大版《概率论与数理统计》(第四版)第十一章实验数据、实验步骤与实验结果
2018-05-17
virtualbox-5.1_5.1.22-115126~Ubuntu~xenial_amd64.deb
2017-05-21
Fundamentals of Matrix Computations, Second Edition
2015-09-14
Visual Assist X 10.6.1823 破解版
2012-02-05
MSP仿真器(支持FET430PIF、FET430UIF、MSP430BSL对MSP430芯片进行编程)
2011-03-28
《半导体集成电路课》朱正涌(第二版)课后习题答案仿真(第四章)
2010-06-18
无warning无error,但不知为何没有输出的代码,求指点~
2015-09-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人