- 博客(19)
- 资源 (5)
- 收藏
- 关注
原创 解決欠拟合方法
解决xgb欠拟合的方法有 3 种:采用更好的算法模型,这里可能考虑更换 用深度学习的网络模型或者参数的设置需要优化一下;使用更好的特征进行训练。需要更好的特征工程。减少正则化的程度。...
2021-08-20 16:37:09 299
转载 pyspark机制
RDD弹性分布式数据集RDD 是 Spark 提供的最重要的抽象概念,它是一种有容错机制的特殊数据集合,可以分布在集群的结点上,以函数式操作集合的方式进行各种并行操作。通俗点来讲,可以将 RDD 理解为一个分布式对象集合,本质上是一个只读的分区记录集合。每个 RDD 可以分成多个分区,每个分区就是一个数据集片段。一个 RDD 的不同分区可以保存到集群中的不同结点上,从而可以在集群中的不同结点上进行并行计算。RDD 具有容错机制,并且只读不能修改,可以执行确定的转换操作创建新的 RDD。具体来讲,RDD
2021-08-18 10:48:07 145
原创 检查pandas是否存在一列或者多列
if set([‘A’,‘B’]).issubset(df.columns):print(‘存在A,B’)
2021-08-17 17:03:53 1317
转载 linux下设置好环境变量要重启计算机
不需要重新启动计算机,一般设置环境变量有两种方法,一种是在命令行中直接输入,另一种是修改.profile或.bashrc文件。对于第一种方法,例如$ export JAVA_HOME=XXX命令成功执行后改变量已经在当前shell中生效,你的java程序可以直接运行了。第二种方法,修改了脚本文件后需要执行source或 . 命令执行脚本中的命令或重新登录才可生效,例如:$ source ~/.bashrc或$ . ~/.bashrc验证环境变量是否生效可使用echo命令查看环境变量值,例如
2021-08-12 14:38:57 2366
转载 连接spark集群Windows环境搭建
1.软件1、anaconda(python3.6)2、spark-2.4.3-bin-hadoop2.7(spark版本要和集群上的一样)3、JDK1.82.python环境配置pip install pyspark这里如果遇到安装超时的情况采用以下命令pip --default-timeout=100 install pyspark或pip --default-timeout=100 install -U pyspark没有py4j也得装下pip install py4j...
2021-08-06 16:27:21 386
原创 pyspark env: ‘python’: No such file or directory
vim ~/.bashrc末尾添加export PYTHONPATH=SPARKHOME/python:SPARK_HOME/python:SPARKHOME/python:SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATHexport PYSPARK_PYTHON=python3然后生效source ~/.bashrc到spark目录下执行./bin/pyspark启动成功...
2021-08-03 11:17:02 430
原创 如何使用pyspark
进到页面https://www.apache.org/dyn/closer.lua/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz下载spark
2021-08-02 17:09:53 245
hrnet量化后的rknn模型,经测试后关键点坐标对齐,可用
2023-02-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人