lanyuelvyun-CSDN博客

原创 pandas 小技巧——如何显示程序进度/进度条的使用/tqdm的使用

python的进度条库：tqdm

2022-09-02 13:52:13 2391 1

原创 jupyter notebook —— linux 为远程登录 jupyter notebook 设置密码

linux 为远程登录 jupyter notebook 设置密码

2022-04-06 17:05:57 1376

原创 jupyterLab 如何修改字体大小

1、打开jupyterLab，左键单击【Settings】，选择【Advanced Settings Editor】2、在上一步弹出来的页面中，左键单击【Notebook】，然后在右侧的【User Overrides】中进行增删改，这个地方就是自定义字体设置的地方。参考代码如下：{ // Notebook // @jupyterlab/notebook-extension:tracker // Notebook settings. // **************

2022-03-02 10:58:24 14599

原创解决：win10安装谷歌浏览器，双击快捷方式，没反应，打不开

解决：win10安装谷歌浏览器，双击快捷方式，没反应，打不开

2022-02-28 18:19:29 13007 14

原创 excel 小技巧——如何在每列后插入一列并指定内容（如何隔列插入一列并指定内容）

如何在每列后插入一列并指定内容（如何隔列插入一列并指定内容）

2021-12-29 17:56:42 18854 1

原创 pandas 小技巧——pd.concat(dict)

pandas.concat()pandas.concat()，一般最常见的用法如下：传入的参数是一个list，里面是dfdf_new = pd.concat([df1, df2])其实，它还有一个更好用的用法：传入的参数是字典，其中字典的value是一个Series，其key值是该Series的名称/标识。如下df_new = pd.concat(series_dict).reset_index()这个用法在我们进行数据分析的时候，会经常用到。比如：给定一个样本集S，每个样本包含N个特征，任务

2021-12-08 11:56:51 3215

原创 python 插值 —— 如何实现插值，以及错误ValueError: A value in x_new is below the interpolation range.

插值插值，是离散函数逼近的重要方法，利用它可通过函数在有限个点处的取值状况，估算出函数在其他点处的近似值。–摘自百度百科插值与拟合有一定差别，但其目的都是类似的，根据已有数值，生成预测函数，来预测目标值。下面介绍一下，在Python中如何实现插值。import scipy.interpolate as spi# 准备数据，X和Y都是有限离散点集，X与Y是一一对应的# 我们想用X逼近YX Y # 准备插值点，就是拟合点，用于生成插值函数# 1）如果(X, Y)有很多，就从X和Y中

2021-10-26 15:57:53 9569 5

原创 hive-sql —— 新建空表，并上传数据（本地文件数据、HDFS文件数据）

一般建表的时候要建外部表，这样一不小心删除的话，还能够恢复。1、自己设计表结构，然后上传文件到该表中1.1 新建表，并将本地csv文件上传到该表中（Linux命令行模式下）准备本地文件，一般都是csv文件。1、注意记下该文件的分隔符；2、记下该文件字段名称和字段类型，以及字段顺序！！；3、注意该文件是否有表头，如果有，在下面进行载入空表的时候，表头也会被当做数据传入表中。如果不需要，就把表头去掉，但是注意记下字段顺序；建表写好建表的sql文件，假设命名为create_table.sql，

2021-10-25 15:39:50 2394

原创 pandas 小技巧——df如何筛选包含特定字符的列（或者行）

dataFrame如何筛选包含指定字符的列[x for x in df.columns if '指定字符' in x]dataFrame如何筛选包含指定字符的行df[df['列名'].str.contains('指定字符')]

2021-10-11 15:48:57 12392

原创 pyspark —— spark dataframe 从hdfs读写文件：按照指定文件格式读写文件（读写csv、json、text文件，读取hive表，读取MySQL表）、按照指定分隔符读写文件

spark有3种数据结构——RDD、DataFrame、DataSet。这里展示的文件读写方式，都是针对dataFrame数据结构的，也就是文件读进来之后，是一个spark dataFrame。1、读写hdfs上的文件1.1 读写hdfs上的文件 ——> 按照指定文件格式读取与保存SparkSession在读取文件时，可以指定读取文件的格式。举个例子。按照csv文件格式，读取文件（其余的文件格式只需将csv变成相应的文件格式名称即可）【读取】from pyspark.sql.types i

2021-08-18 18:51:35 10250 3

原创 pandas 小技巧——如何生成pmml模型文件

# 生成pmmlfrom lightgbm.sklearn import LGBMClassifierfrom sklearn2pmml import sklearn2pmmlfrom sklearn2pmml.pipeline import PMMLPipeline# 首先，使用某一种算法训练完成得到一个模型main_model = LGBMClassifier()# 将训练好的model包装成pmml格式pipeline = PMMLPipeline([("classifier", ma

2021-05-11 14:38:33 851 2

原创 pandas 小技巧——如何删除行或者列、根据条件删除指定行或者列

使用df.dropDataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors=‘raise’)1、labels：要删除的标签，一个或者多个(以list形式)；2、axis：指定哪一个轴，=0删除行，=1删除列；3、columns：指定某一列或者多列(以list形式)；4、level：索引等级，针对多重索引的情况；5、inplaces：是否替换原来的datafram

2021-05-10 20:22:24 52012 1

原创 pandas 小技巧——pd.read_csv读取没有表头的csv文件、并加上指定表头

我们在读取csv文件的时候，有的时候可能没有表头，或者想换一个表头，该怎么操作？df = pd.read_csv('data.csv', sep='\t',header=None, names=['var_code','var_name','var_desc'])```

2021-04-14 17:09:31 16768

原创 pandas 小技巧——dataframe、series如何删除指定列中有空值的行+如何删除多列都为空的行

dataframe、series如何删除指定列中有空值的行+如何删除多列都为空的行

2020-12-30 16:44:12 8828 2

原创 pandas 小技巧——如何将多个df保存在一个Excel的不同sheet里

如何将多个df保存在一个Excel的不同sheet里

2020-11-26 16:22:00 2101

原创 pyspark 小知识——自定义聚合函数UDAF：使用pyspark分组计算AUC

在pyspark中，自定义聚合函数UDAF，在实现上有些困难，但是我们可以用另外一种方法实现同样的功能：利用自定义函数UDF，实现自定义聚合函数UDAF的功能。

2020-10-23 16:23:43 5728 5

原创推荐系统：NDCG评价指标及其Python实现方法

除了推荐任务，在二分类任务中，也可以计算该指标，代码如下：# ndcgdef get_dcg(y_pred, y_true, k): #注意y_pred与y_true必须是一一对应的，并且y_pred越大越接近label=1(用相关性的说法就是，与label=1越相关) df = pd.DataFrame({"y_pred":y_pred, "y_true":y_true})...

2019-11-26 15:24:43 7730

原创 pandas 小技巧——修改Series的index名称

1、修改series的index名称2、合并两个series，并对列名进行重命名

2019-10-23 19:46:13 11367

原创 pandas 小技巧——空值判断：对整个Series/Dataframe判断+对单独值判断

空值判断：对整个Series/Dataframe判断+对单独值判断

2019-10-23 19:44:20 18527 1

原创 pandas 小技巧——用指定列的“非空值”值去填充另一列的“空值”

举例：有df如下>import numpy as np>df = pd.DataFrame({"name":["apple", "pear", "pig", "dog", "cat"], "number_1":[1,np.nan,3,np.nan,5], "number_2":[np.nan, 2,3,4,5]})>print(df) name number_1...

2019-07-29 15:01:41 15779 3

原创 python2.7 小知识——操作中文名文件乱码等编码问题

python2.7 小知识——操作中文名文件乱码等编码问题

2019-07-08 17:07:44 2846

原创 python 小知识——strftime()和strptime() 日期获取、格式转换和计算

python 小知识——strftime()和strptime() 日期获取、格式转换和计算

2019-07-05 12:16:18 9390

原创 pandas 小技巧——set_index()和reset_index()

set_index()和reset_index()的使用介绍

2019-07-05 11:27:57 5675

原创 pandas 小技巧——使用时候的“坑”

1、使用字典创建df的时候，如果字典的key只有一个value会报错2、python中字符串的最后一个字符是斜杠会导致出错3、空值判断

2019-07-02 11:14:01 374

原创 win10安装jupyter notebook详细步骤+修改工作路径

1、安装：我电脑里python2.7和Python3.4都安装了，在用pip安装jupyter的时候，要指明安装的是哪一版。在cmd中输入。cmd -python27 -m pip install jupyter notebook``2、运行并打开：安装完成之后，在cmd输入jupyter notebook这一步是运行jupyter notebook，如果安装成功，就会在浏览器中成功...

2019-06-24 17:35:51 19419 1

原创决策树系列（四）：集成学习+boosting算法+提升树+GBDT(梯度提升决策树)_详细原理解析

1 GBDT简介GBDT，英文全称是Gradient Boosting Decision Tree，梯度提升决策树，顾名思义，与梯度、boosting算法、决策树有关。是一种迭代的决策树算法，由多棵决策树组成，每一颗决策树也叫做基学习器，GBDT最后的结果就是将所有基学习器的结果相加。2 boosting算法GBDT既然跟boosting算法有关，就先来讲讲boosting算法。如果不想看，...

2019-03-22 17:06:53 4996 2

原创决策树系列（三）：CART(分类回归树)-详细原理解析

CART，分类回归树，是几乎所有复杂决策树算法的基础。下面简单介绍其算法原理。

2019-03-21 17:34:21 15900 13

原创 PCA：详细解释主成分分析

1 PCA目的/作用主成分分析算法（PCA）是最常用的线性降维方法，它的目标是通过某种线性投影，将高维的数据映射到低维的空间中，并期望在所投影的维度上数据的信息量最大（方差最大），以此使用较少的数据维度，同时保留住较多的原数据点的特性。PCA降维的目的，就是为了在尽量保证“信息量不丢失”的情况下，对原始特征进行降维，也就是尽可能将原始特征往具有最大投影信息量的维度上进行投影。将原特征投影到...

2018-09-04 15:33:33 215260 71

原创风控信贷模型（一）：特征分析

一特征工程1、初步分析阶段数据的探索分析EDA，是对数据进行初步的统计分析，统计数据的分布、异常、相互关系，目标是让我们了解这些数据能告诉我们什么。可以用来指导我们进行模型的选择，比如说帮助我们初步的决定哪些特征需要被使用，哪些特征需要被剔除。1、准备好样本、特征、label 2、查看样本集中样本总个数、特征总个数 3、查看正负样本个数，如果正负样本相差不多，则属于样本均衡的建模...

2018-08-28 19:50:22 8301

原创机器学习算法经验

1、特征值归一化背景：好多算法都是基于参数的，并且涉及到了梯度下降优化方法目的：为了让所有的特征的值，具有相同的量纲原因：拿LR举例，属于基于参数的算法，用到了梯度下降算法。在计算梯度的时候，如果特征值不进行归一化处理，那么在同一个学习率的情况下，拥有较小特征值的特征就学习的不好（因为此时的学习率对于该特征值来说大了，不合适），为了避免这种情况，学习率就要设置的非常小，学习率小，这就会...

2018-08-28 10:41:27 959

原创决策树系列（二）：随机森林(random forest)

随机森林，属于集成算法bagging的一种，关于什么是bagging看这里决策树（1）集成学习（ensemble learning）–boosting与bagging的区别1、简单原理以及特点1）随机森林，属于集成算法bagging的一种，由多个基分类器组合而成，最终的预测结果是多个基分类器结果的平均值（回归问题）/众数（分类问题）。 2）各个基分类器之间相互独立，使用的基分类器是...

2018-07-26 17:39:15 1746

原创决策树系列（一）：集成学习(ensemble learning)->boosting与bagging的区别

参考文献 GBDT回归树过程详解 https://blog.csdn.net/zhangbaoanhadoop/article/details/79904916 机器学习中的算法(1)-决策树模型组合之随机森林与GBDT https://www.cnblogs.com/LeftNotEasy/archive/2011/03/07/random-forest-and-gbdt.html...

2018-07-24 17:53:24 1546

原创 win10的pycharm更新pip出错

我在pycharm的Terminal中，更新pip的时候，出现了以下错误：原因：可能与最近的Windows 10更新有关。我的版本如下：在cmd中输入msinfo32，回车，可以看到版本信息。解决办法：直接运行cmd，输入python -m pip install -U pip，就可正常升级pip了。 PS：查到的另外一个解决办法是安装win_unicode_consol...

2018-05-15 18:06:29 1838

原创基于虚拟环境的TensorFlow安装 on Mac OS X

TensorFlow官网上建议使用virtualenv（虚拟环境）安装。 Virtualenv是与其他Python开发隔离的虚拟Python环境，不会在同一台机器上干扰或受到其他Python程序的影响。

2018-04-10 20:08:02 791

原创 Git 使用git时候的坑

git有4个区域：工作区（working directory）：工作区是我们能看到的区域，就是本地目录，我们在目录里面进行操作；暂存区（stage index）：git add命令就是将文件从工作区添加到暂存区；本地版本库（repository）：git commit命令就是将暂存区的文件提交到本地版本库中；远程库：git push命令就是将本地版本库中的文件推送到远程库中...

2018-04-08 20:28:05 1123

原创 Git（二）要修改之前推送到远程库中的文件，并重新推送上去

上一篇我们讲了如何将本地的文件推送到远程库中，现在假如我们要修改上次推送的文件中的内容，并且重新推送到相同的远程库中，该怎么做呢？

2018-04-08 19:57:48 2039

原创 Git（一）第一次向自己的gitlab仓库推送文件

第一次向自己的gitlab仓库推送文件

2018-03-23 20:10:15 9909 5

原创 Faster-RCNN Tensorflow版本源码解析（二）train_net.py所用到的函数

这里将要解析的是Faster-RCNN Tensorflow版本，fork自githubFaster-RCNN_TF。1. 背景交代Faster-RCNN_TF中，网络的训练文件是 Faster-RCNN_TF/tools/train_net.py。我们已经在Faster-RCNN Tensorflow版本源码解析（一）网络训练部分中对该文件进行了源码解析，现在来解析一下该文件中用到的

2017-10-10 16:55:40 5964 6

原创 Faster-RCNN Tensorflow版本源码解析（一）：网络训练部分train_net.py

这里将要解析的是Faster-RCNN Tensorflow版本，fork自githubFaster-RCNN_TF。网络训练部分Faster-RCNN_TF中，网络的训练文件是 Faster-RCNN_TF/tools/train_net.py。1. 启动训练的方法我们在启动faster-RCNN网络训练的时候，要在目录Faster-RCNN_TF/下，在终端输入:...

2017-10-10 10:22:47 10890 5

原创用自己的数据训练Faster-RCNN，tensorflow版本（二）

我用的Faster-RCNN是tensorflow版本，fork自githubFaster-RCNN_TF

2017-09-26 12:45:10 15761 6

空空如也

空空如也