重剑无锋博客

深度学习，pytorch框架，目标检测，图像分类专业硕博生，深度学习算法工程师，分享dl知识，项目与科研经历，更多内容请加群477592543

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 xgboost4j jar包下载

https://mvnrepository.com/artifact/ml.dmlc/xgboost4j

2021-08-31 17:25:16 520

原创 pandas防止将第一行变成列名

read_csv加上header = None

2021-08-31 15:49:34 1528

原创 excel空值填充

选中填充区域，按F5，选择定位条件，选择空值，输入填充的值，按下ctrl+回车

2021-08-30 15:16:18 814

原创 pandas获取索引行数据

index=df.indexdata = df.loc[index,:]

2021-08-30 15:00:24 2366

原创 ImportError: cannot import name ‘JavaPredictionModel‘

采用pyspark2.4

2021-08-27 11:20:36 171

原创解決欠拟合方法

解决xgb欠拟合的方法有 3 种：采用更好的算法模型，这里可能考虑更换用深度学习的网络模型或者参数的设置需要优化一下；使用更好的特征进行训练。需要更好的特征工程。减少正则化的程度。...

2021-08-20 16:37:09 299

转载特征工程步骤

https://blog.csdn.net/quiet_girl/article/details/85259086

2021-08-20 15:51:28 60

原创 python不显示warnings

import warningswarnings.filterwarnings('ignore')即可

2021-08-19 16:59:24 1043 1

RDD弹性分布式数据集RDD 是 Spark 提供的最重要的抽象概念，它是一种有容错机制的特殊数据集合，可以分布在集群的结点上，以函数式操作集合的方式进行各种并行操作。通俗点来讲，可以将 RDD 理解为一个分布式对象集合，本质上是一个只读的分区记录集合。每个 RDD 可以分成多个分区，每个分区就是一个数据集片段。一个 RDD 的不同分区可以保存到集群中的不同结点上，从而可以在集群中的不同结点上进行并行计算。RDD 具有容错机制，并且只读不能修改，可以执行确定的转换操作创建新的 RDD。具体来讲，RDD

2021-08-18 10:48:07 145

原创检查pandas是否存在一列或者多列

if set([‘A’,‘B’]).issubset(df.columns):print(‘存在A,B’)

2021-08-17 17:03:53 1317

转载 linux下设置好环境变量要重启计算机

不需要重新启动计算机，一般设置环境变量有两种方法，一种是在命令行中直接输入，另一种是修改.profile或.bashrc文件。对于第一种方法，例如$ export JAVA_HOME=XXX命令成功执行后改变量已经在当前shell中生效，你的java程序可以直接运行了。第二种方法，修改了脚本文件后需要执行source或 . 命令执行脚本中的命令或重新登录才可生效，例如：$ source ~/.bashrc或$ . ~/.bashrc验证环境变量是否生效可使用echo命令查看环境变量值，例如

2021-08-12 14:38:57 2366

转载连接spark集群Windows环境搭建

1.软件1、anaconda（python3.6）2、spark-2.4.3-bin-hadoop2.7（spark版本要和集群上的一样）3、JDK1.82.python环境配置pip install pyspark这里如果遇到安装超时的情况采用以下命令pip --default-timeout=100 install pyspark或pip --default-timeout=100 install -U pyspark没有py4j也得装下pip install py4j...

2021-08-06 16:27:21 386

原创 windows安装pyspark

pip install pyspark

2021-08-04 10:27:22 337

原创 pyspark env: ‘python’: No such file or directory

vim ~/.bashrc末尾添加export PYTHONPATH=SPARKHOME/python:SPARK_HOME/python:SPARKHOME/python:SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATHexport PYSPARK_PYTHON=python3然后生效source ~/.bashrc到spark目录下执行./bin/pyspark启动成功...

2021-08-03 11:17:02 430