2021年06月_WGS.

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 python pyspark-submit 保存模型到hdfs（全网之最）

文章目录

2021-06-30 18:56:31 3009 1

原创 this version of pandas is incompatible with numpy ＜ 1.15.4

conda list查看numpy版本：/data/anaconda3/bin/conda list升级numpy/data/anaconda3/bin/conda update numpy

2021-06-30 15:33:32 2716

原创 AttributeError: ‘bytes‘ object has no attribute ‘encode‘

跟着源码点进去，修改如下部分：把encode改成decode就可以了这是因为在python3中，编码的时候区分了字符串和二进制

2021-06-30 15:15:59 4457

转载 Python 保存模型到hdfs pickle保存模型

保存以防日后有用https://www.cnpython.com/qa/304597import pickleimport pydoop.hdfs as hdfswith hdfs.open(to_path, 'w') as f: pickle.dump(prediction_model, f)pickle保存本地https://blog.csdn.net/weixin_30732825/article/details/101073740import picklewith

2021-06-30 09:37:18 1009

转载 pyspark提交作业，导入第三方包，包括whl文件

测试代码from pyspark import SparkConf, SparkContextimport addimport multimport tracebackimport osimport pandas as pd def getResult(x): a=add.add(len(x),1)#并行计算中用到的自定义函数add b=mult.mult(a,2)#并行计算中用到的自定义函数mult b=pd.to_datetime(b)#并行计算中用到panda.

2021-06-29 10:41:48 984

原创 Keras---学习率衰减

文章目录`learning rate` 线性衰减`learning rate` 指数衰减`learning rate` 衰减使用技巧选择合适的学习率能够提高随机梯度下降算法的性能，并减少训练时间。为了能够使梯度下降有更好的性能，需要把学习率的值设定在合适的范围内。学习率决定了参数移动到最优值时的速度。如果learning rate过大，可能会越过最优值；过小会导致下降的过慢，长时间无法收敛。学习率衰减的基本思想是：学习率随着训练的进行逐渐衰减。在训练开始时，使用较大的learning rate，可以加快

2021-06-28 22:14:27 2825 1

原创 TypeError: unsupported operand type(s) for /: ‘Accumulator‘ and ‘Accumulator‘

很明显，报错意思是指，累加器和累加器之间是不能相除的.value 取出累加器的值操作即可# 如上图的报错代码：# 这里的numsyb和n都是累加器average_error_percentage = numsyb / n# 改为：numsyb, n = numsyb.value, n.valueaverage_error_percentage = numsyb / n...

2021-06-28 17:55:40 211

原创 pyspark 广播变量和累加器的使用

文章目录广播变量累加器对于并行处理，Apache Spark使用共享变量。当驱动程序将任务发送到集群上的执行程序时，共享变量的副本将在集群的每个节点上运行，以便可以将其用于执行任务。Apache Spark支持两种类型的共享变量BroadcastAccumulator广播变量广播变量用于跨所有节点保存数据副本。此变量缓存在所有计算机上，而不是在具有任务的计算机上发送。以下代码块包含PySpark的Broadcast类的详细信息。以下示例显示如何使用Broadcast变量。Broadcast

2021-06-28 17:33:32 1215 2

原创 pyspark groupby 后将遍历的每一行转成pandas df

文章目录关于pyspark分组后遍历分组后的数据参考这篇文章：pyspark分组后如下，在pandas里分组后，每一个小df就是如下的每一行将pyspark分组后的数据，即每一行，转成pandas的df:汇总关键代码关于pyspark分组后遍历分组后的数据参考这篇文章：https://blog.csdn.net/qq_42363032/article/details/118298108pyspark分组后如下，在pandas里分组后，每一个小df就是如下的每一行data = ss.createDat

2021-06-28 15:05:21 1517

原创 pyspark groupby分组遍历分组后的数据(每一行)

文章目录假数据截图先来看一下描述groupby分组图例pandas groupby分组图例pyspark groupby分组图例实现思路注意：本文的分组，并没有聚合假数据截图先来看一下描述这里分组没有聚合原来pandas的groupby处理是对根据id分组后的每个组的df进行处理，方便理解起见看如下代码块：换句话说，pandas里的groupby之后是可以遍历的，也就是可以遍历分组后的每个小df，如下：# pandas实现def pandas_gb(data): # 根据id

2021-06-28 14:36:02 8135 7

原创 pyspark object of IntegerType out of range

来看完整报错：ValueError: field ad_position_id: object of IntegerType out of range, got: 2011082923279930很明显：IntegerType 对象超出范围出错代码：schema = StructType([ StructField('ad_position_id', IntegerType(), True),])valuable_data = ss.createDataFrame(valuable_d

2021-06-25 10:48:21 825

原创 pyspark XGBoostRegressor的使用（保存并使用）

文章目录关于pyspark如何使用xgb参考我的这篇文章直接上代码提交作业参考文章：参数解释参考：sparkxgb源码：查看XGBoostRegressor参数关于pyspark如何使用xgb参考我的这篇文章https://blog.csdn.net/qq_42363032/article/details/118143537直接上代码def xgb_model(worthless_data): x_columns = [ 'impressions', 'clicks', 'r

2021-06-25 09:49:18 2300

原创 python连接MySQL：ModuleNotFoundError: No module named ‘MySQLdb‘

加入：pymysql.install_as_MySQLdb()API:# coding:utf-8import pymysqlimport pandas as pdpymysql.install_as_MySQLdb()def pull_data(sql, dicts): conn = pymysql.connect( host=dicts['host'], user=dicts['user'], passwd=dicts['pas

2021-06-23 17:59:33 966 1

原创 pyspark提交作业，引入需要的算法包 (xgboost)

先来看一下我的需求：有一个pyspark的作业需要集群提交，里面需要依赖dmlc的xgboost，当然集群上是没有的，这个时候很多人会说 ssh切换着pip不就好了吗，但是我现在用的集群是大数据那边的，不是我们算法的，不能破坏人家的环境，所以就想着submit的时候能不能将依赖包也提交上去。如果你的需求和我类似，那我可以告诉你，是可以的。思路如下：我们需要下dmlc xgb的源码包，whl格式的是不行的，我们不能安装依赖，需要--jars源码包。也就是submit提交的时候，--files和--jar

2021-06-23 09:47:00 1041

原创 keras---dropout在输入层和隐藏层中的使用

在Keras的每个权重更新的周期中，按照给定概率(如20%)，随机选择要丢弃的节点，来实现dropout。dropout只能在模型的训练阶段使用，不能在评估的时候用。输入层使用dropout以下代码在输入层后添加了一个新的dropout层，随机失活率设置为20%。from sklearn import datasetsimport numpy as npfrom keras.models import Sequentialfrom keras.layers import Dropoutfrom

2021-06-21 21:50:41 2932

原创 keras---训练过程的可视化

在训练深度模型的时候，Keras提供了对训练历史的默认回调方法。在深度学习的训练过程中，默认回调方法之一是history回调，它记录每个epoch的训练指标，包括损失和准确度。训练过程的信息可以从fit的返回值获取，可以都存起来，来画图，可以很方便的看到模型的训练情况：模型在epoch的收敛速度(斜率)模型是否已经收敛(该线是否平滑收敛)模型是否过拟合(验证线的拐点)下面使用莺尾花数据集，来展示以下信息：训练数据和评估数据在各epoch的准确度及损失情况from sklearn imp

2021-06-19 09:47:04 4055

原创 Keras---从检查点导入模型

from sklearn import datasetsimport numpy as npfrom keras.models import Sequentialfrom keras.layers import Densefrom keras.utils import to_categorical# 导入数据dataset = datasets.load_iris()x = dataset.dataY = dataset.target# 将标签转换为分类 one-hot 编码Y_l

2021-06-19 09:34:11 249

原创 Keras---检查点自动保存最优模型

更简单的检查点策略是将模型权重保存在同一个文件中，当且仅当模型准确度提高时，才会将权重更新保存到文件中。当评估数据集上模型的准确度提高时，会输出权重到文件，我们只需要设置名字一样即可，会覆盖上次的结果，也就能保存到目前为止最好的模型。from sklearn import datasetsimport numpy as npfrom keras.models import Sequentialfrom keras.layers import Densefrom keras.utils import

2021-06-19 09:32:18 867

原创 Keras---检查点跟踪NN模型

应用程序检查点(checkpoint)是长时间运行进程的容错技术，是在系统故障的情况下，对系统状态快照保存的一种方法。如果产生问题，不是丢失全部数据，而是可以在检查点检查全部结果，或者从检查点开始新的运行。在Keras中，回调API提供检查点的功能，ModelCheckpoint可以定义模型权重值检查点的位置、文件的名称，以及在什么情况下创建模型的检查点。API还可以指定要监视的指标，例如训练集或评估数据集的丢失或准确性，也可以指定是否寻求最大化或最小化分数的改进，用于存储权重的文件名包括诸如epochs

2021-06-19 09:27:35 252

原创 Keras---模型增量更新

为了保证模型的实效性，需要定期对模型进行更新，这个时间间隔通常是3-6个月，甚至1-2个月。在数据量很大时，如果每次采用全部数据去训练模型，则时间开销会非常大，因此可以采用增量更新的方式对模型进行训练。这里使用莺尾花数据集为案例，将数据分成基本训练集和增量训练集。基本训练集训练完模型后保存，然后导入模型进行增量训练。from sklearn import datasetsimport numpy as npfrom keras.models import Sequentialfrom keras.

2021-06-19 09:16:52 1952

原创 Keras---YAML序列化模型

YAML是“另一种标记语言”的缩写，但是为了强调这种语言以数据为中心，而不是以标签为重点，因此用YAML来命名。to_yaml：模型保存成YAML文件save_weights：保存模型的权重值model_from_yaml：加载模型load_weights：加载权重from sklearn import datasetsimport numpy as npfrom keras.models import Sequentialfrom keras.layers import Densef

2021-06-19 09:10:31 407 1

原创 keras---json序列化模型

在Keras中，对模型进行序列化时，会将模型结果和模型权重保存在不同的文件中，模型权重通常保存在HDF5中，模型的结构可以保存在JSON或YAML中，为了使用HDF5来保存模型权重，需要先安装：pip install h5py涉及方法：to_json：将模型保存成json文件save_weights：保存模型的权重值model_from_json：加载模型load_weights：加载模型权重以下以莺尾花数据集为例，直接上代码：from sklearn import datasets

2021-06-19 09:00:25 407

原创三次样条插值详解(附代码实现)

文章目录前言引入二次样条的原理二次样条代码实现三次样条的原理三次样条代码实现前言当已知某些点而不知道具体方程时候，最经常遇到的场景就是做实验，采集到数据的时候，我们通常有两种做法：拟合或者插值。拟合不要求方程通过所有的已知点，讲究神似，就是整体趋势一致。插值则是形似，每个已知点都必会穿过，但是高阶会出现龙格库塔现象，所以一般采用分段插值。今天我们就来说说这个分段三次样条插值。引入首先我们先抛开众多的回归算法不谈，我们对于给出如下的离散的数据点，现在想根据如下的数据点来推测 x=6 时的值，我们应该

2021-06-18 10:34:00 30847 9

原创时间序列插值代码实现

文章目录先来看一下需求直接上代码，需要的自行修改首先需要获取断开的时间，以及要往前插的时间将日期转为数字，便于插值对断开的数据进行三次样条插值，对其余的往前取均值插插值完成全部代码有关scipy interpolate的差值方法demo可以参考如下两篇文章先来看一下需求有一个时间序列数据，例如如下：x = ['2021-05-10', '2021-05-11', '2021-05-12', '2021-05-13', '2021-05-16']y = [3.4783, 1.25, 1.1111, 1

2021-06-17 16:57:39 8831 2

原创 Python 判断日期是否连续，并生成断开的日期

直接上代码，需要的拿去结合自己修改：import numpy as npfrom scipy import interpolateimport matplotlib.pyplot as pltimport time, datetimefrom datetime import datetime, date, timedeltax = ['2021-5-10', '2021-5-11', '2021-5-12', '2021-5-13', '2021-5-16']y = [3.4783, 1.2

2021-06-17 10:41:38 4228 2

原创 The given frequency argument could not be matched to the given index.

定位出错代码：model = ARIMA(endog=lodata['ecpm_tomorrow'], exog=exdata.values, order=(p, 0, q), freq='D')错误解析：给定的频率参数无法与给定的索引匹配于是就想到了freq='D'，这个的意思是说偏移的值是每天，所以怀疑我的数据有几天是断开了，打印看看：果然时间断开了解决办法：去掉 freqmodel = ARIMA(endog=lodata['.

2021-06-16 15:19:32 1996

原创 ARIMA：差分还原

首先来看表达式：xn−xn−1=dx_n - x_{n-1} = dxn−xn−1=dxn=d+xn−1x_n = d + x_{n-1}xn=d+xn−1由此可知，我们只需要将差分后预测出来的数据，加上原数据往后搓一位即可。代码如下：# 一阶差分还原# tmpdata2：原数据# pred：一阶差分后的预测数据df_shift = tmpdata2['ecpm_tomorrow'].shift(1)predict = pred.add(df_shift)# predict

2021-06-16 11:17:27 11478 6

原创 ARIMA预测: new exog needed for each step

先来定位出错位置：test = data_gp.iloc[-1]extest = test[['impressions', 'clicks', 'revenue']]y_forecasted = result.forecast(steps=1, exog=extest)[0]print('{} {}'.format(test['ecpm_tomorrow'], y_forecasted))我们点进去源码看：可见我们的外生变量的维度和要预测几天是不相同的。再看如下分析：test= data

2021-06-16 10:17:21 465

原创 ARIMA如何引入外生变量

model = ARIMA(endog=tmpdata2, exog=exdata.values, order=(1, 0, 2), freq='D')注意：预测的时候也需要给入外生变量

2021-06-15 16:21:52 2283 7

原创清华源安装pymysql

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pymysql==0.9.3 切记：用清华源的时候关掉VPN

2021-06-08 18:35:32 3150

原创多项式拟合数据点(数据平滑) ，预测返回下一点

直接上代码，需要的可以在我的基础上修改：给定一个接口，参数是：拟合的数据点列表、项数。预测返回下一个的值接口包含如下内容：数据平滑多项式构造数据拟合画样本点曲线图from sklearn.metrics import r2_scorefrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.linear_model import LinearRegressionimport numpy as npimpo

2021-06-07 11:23:05 748