![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
tricks
文章平均质量分 89
_illusion_
知乎主页:https://www.zhihu.com/people/illusions-29/posts
展开
-
tqdm模块在处理文件阅读时,如何显示出进度条?
问题提出最近,使用tqdm模块,对于大文件的阅读进行进度监控。然而我发现有个问题,即在tqdm模块使用一定没错的情况下,进度条死活打印不出来。情况如下:如上图所示,这样read file是没有进度条显示的。问题解决先说为什么,再说怎么解决。为什么没有进度条tqdm模块的进度条显示,是依赖于已知可迭代模块的总迭代数的。如迭代一个list,该list有支持len()方法获取其长度,这样,进度条才能正确显示。但read file的思路显然不是这样。因为read file的时候的迭代原创 2020-07-02 10:44:21 · 7159 阅读 · 0 评论 -
【解决】为何python程序的输出重定向到文件中会有延迟?
有时候,我们会写这样的命令行,让python结果重定向输出到某个日志文件中:$ python xxx.py args1 >> out/xxx.log$ python xxx.py args1 | tee -a out/xxx.log上面那条命令的含义就是,将xxx.py这个python文件中print()原本输出到console的内容重定向到"out/xxx.log"文件...原创 2019-11-08 17:32:57 · 5487 阅读 · 3 评论 -
为何不可将神经网络的参数全都初始化成0?
为何不可将神经网络的参数全都初始化成0?证明如下:如图所示。所以其实可以看出,当你把所有参数都初始化为0的时候,同一hidden layer的参数的更新幅度是一样的。又因为它们的初值也一样(都是0),所以导致隐藏层的参数永远一样,这就意味着你同一隐藏层每个神经元输入一样、经过同样的sigmoid激活,又得到一样的输出(设a4=a5=a),然后再乘以一样的参数。对于图中x4、x5组...原创 2019-11-05 16:09:10 · 1793 阅读 · 2 评论 -
数据变换的小技巧(经常更新)
引子作为一个小白数据挖掘工程师,如何处理分布不均匀的数据是我们遇到的第一个难题,也是工作中最常见的问题之一。何谓数据分布不均匀?比如用户做一道题的做题时间长度(简称做题时长),在理想状态下应该是正态分布的,即大部分人做题时长在一个合理位置(如3~5分钟),做题时间很长or很短的人应该很少。但实际情况总是这样的吗?非也。由于不论是做题时长、房价还是人的收入,这些变量总有一个下限,却没有上限。...原创 2019-07-11 16:44:57 · 1143 阅读 · 0 评论 -
tqdm模块无法单行打印进度条
问题定位:python的tqdm模块用于进度条打印等功能,在大部分IDE、大部分情况下是可以正常打印的,但当你手动停止了tqdm管理的代码块后,就会出现以下场景:如上所示,此时的tqdm模块无法单行打印进度条,有的时候还会每两个进度条之间空一行打印,十分混乱问题解析:为何无法再一行内完成进度条打印呢?因为若你之前的tqdm管理的代码块没有被正确close的话(比如使用了Ctrl...原创 2019-06-19 15:54:11 · 12589 阅读 · 9 评论 -
在anaconda指定虚拟环境下运行jupyter notebook
最近因为要远程调试TensorFlow代码,因而在远程服务器上搭建了TensorFlow框架。但又因为远程服务器没有浏览器、没有一切可视化的界面,所以代码调试的任务就必须放在本地,也就是我得远程进行代码调试,即在本地使用服务器端的配置运行代码。为此,我在服务器端安装了anaconda,准备使用jupyter notebook这个非常直观的交互性软件进行TensorFlow的代码调试。好了,...原创 2019-06-12 17:05:29 · 7195 阅读 · 1 评论 -
LR、决策树、SVM的选择与对比
看到一篇很精彩的文章,特转载于此,转载源:https://www.jianshu.com/p/743cf2357b28分类问题是我们在各个行业的商业业务中遇到的主要问题之一。本文将逻辑回归(Logistic Regression)、决策树(Decision Trees)和支持向量机(Support Vector Machine,SVM)进行对比找出每个算法的优缺点以及适合的数据形式。上面列...转载 2019-03-05 00:38:24 · 10494 阅读 · 0 评论 -
使用curl在Mac OS系统安装软件错误札记——
今日,我使用curl从MongoDB官网上下载并安装MongoDB,输入以下command line后报如下错误:$ sudo curl -0 https://fastdl.mongodb.org/osx/mongodb-osx-ssl-x86_64-4.0.5.tgzWarning: Binary output can mess up your terminal. Use "--out...原创 2019-01-24 11:46:53 · 7767 阅读 · 1 评论 -
关于SVM的一些问题
**转载自**:https://blog.csdn.net/fanghuidi/article/details/78147985 1、为什么要选择最大间隔分类器,请从数学角度上说明? 答:几何间隔与样本的误分次数间存在关系: 其中的分母就是样本到分类间隔距离,分子中的R是所有样本中的最长向量值2、样本失衡会对SVM的结果产生影响吗?...转载 2018-10-30 14:42:47 · 1470 阅读 · 0 评论 -
python的深拷贝[copy.deepcopy()]与浅拷贝[copy.copy()]
Python中的对象之间赋值时是按引用传递的,如果需要拷贝对象,需要使用标准库中的copy模块。copy.copy 浅拷贝 只拷贝父对象,不会拷贝对象的内部的子对象。 copy.deepcopy 深拷贝 拷贝对象及其子对象 >>> import copy>>> a = [1,2,3,4,['a','b']] #原始对象>>> ...转载 2018-10-24 15:38:40 · 155 阅读 · 0 评论 -
pandas日常使用笔记:iterrows()、mode()需要注意的东西
1.iterrows()、iteritems():此方法用于对DataFrame进行行或者列的迭代获取 经过此方法所得到的DataFrame行或者列,你永远都不要去对它进行改动。因为迭代所得只是这个数据对象的复制本,你对它进行何种改动都无济于事 2.mode():此方法用于获得该列“众数”,即本特征下取值最多的那个特征值(因而可能不止一个结果) 如果你想用mode()函数的计算结...原创 2018-09-28 14:10:39 · 10539 阅读 · 2 评论 -
日常小知识点积累:python list列表推导式、pandas.get_dummies、pandas.DataFrame.dtypes
1.列表推导式基本形式: result = [item for item in squence <if conditions>] 举例:在以下球员姓名名单中找出名字中含有字母‘a’的球员roster = ['Irving','Hayward','Horford','Tatum','Jaylen','Rozier','Smart']contains_a = [i fo...原创 2018-09-14 10:00:31 · 1301 阅读 · 0 评论 -
日常小知识点积累:DataFrame.reset_index、pandas数据修改、matplotlib子图大小占比
1.pandas数据的index: 当我们对pandas。DataFrame进行切片、融合操作后,DataFrame原有的index不会自动重新排序,这时候我们可以用pandas.DataFrame.reset_index方法让它重新排序:DataFrame.reset_index(level=None, drop=False, inplace=False, col_leve...原创 2018-09-16 02:44:38 · 1360 阅读 · 0 评论 -
用pandas或numpy处理数据中的空值(np.isnan()/pd.isnull())
最近在做数据处理的时候,遇到个让我欲仙欲死的问题,那就是数据中的空值该如何获取。我的目的本来是获取数据中的所有非零且非空值,然后再计算获得到的所有数据计算均值,再用均值把0和空值填上。这个操作让我意识到了i is None/np.isnan(i)/i.isnull()之间的差别,再此做简单介绍:1.关于np.nan:先明确一个问题,即空值的产生只有np.nan()一种方法。# n...原创 2018-09-16 02:19:50 · 65646 阅读 · 11 评论 -
离散型变量的编码方式——one-hot与哑变量(dummy variable)
我们在用模型去解决机器学习问题的时候,要提前进行“特征工程”。而特征工程中很重要的就是对特征的预处理。当你使用的是logistic回归这样的模型的时候,模型要求所有特征都应该是数值型变量,即连续的。但我们生活中常常遇到类别型变量(categorical variable),例如著名的Kaggle泰坦尼克生还预测这个比赛中,乘客从哪里上船(Embarked)这个变量就是类别型变量。这三个登船点两...原创 2018-09-12 10:47:42 · 14690 阅读 · 1 评论 -
np.random.seed()、np.random.random()系列函数、np.squeeze()的用法
在最近的学习中遇到了这两个函数,详细说一下这两个函数的使用方法: 1.np.random.seed():这个函数控制着随机数的生成。当你将seed值设为某一定值,则np.random下随机数生成函数生成的随机数永远是不变的。更清晰的说,即当你把设置为seed(0),则你每次运行代码第一次用np.random.rand()产生的随机数永远是0.5488135039273248;第二次用n...原创 2018-08-26 20:13:26 · 11796 阅读 · 0 评论 -
如何快速转载CSDN中的博客
前言 对于喜欢逛CSDN的人来说,看别人的博客确实能够对自己有不小的提高,有时候看到特别好的博客想转载下载,但是不能一个字一个字的敲了,这时候我们就想快速转载别人的博客,把别人的博客移到自己的空间里面,当然有人会说我们可以收藏博客啊,就不需要转载,(⊙o⊙)… 也对。。实现 因为我自己当初想转载的时候却不知道该怎么转载,所以学...转载 2018-08-10 15:16:59 · 83 阅读 · 0 评论