自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 对LSTM的通俗易懂理解--可变权重

RNN的问题:长期依赖,即对短期的数据敏感,对比较远的长期数据不敏感,这是因为RNN隐藏状态权重在不同时刻是共享相同的,随着时间步的增加,梯度会指数级地衰减或者增长,导致梯度消失或者爆炸,导致RNN难以捕捉到在较长时间尺度上具有依赖关系的信息。门通俗理解就是一组**可变权重**,可以针对当前时刻选择要处理的信息做调整,进行遗忘 存储等操作,可以看到下图2-12中,两个门控充当了权重的作用,这个权重是可以变化的,根据当前信息不断变化。这个门控是输入门、遗忘门、输出门。**这个门是怎么起作用的?

2024-04-12 10:55:36 357

原创 Pandas警告SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame

df2=df1[(df1['字段数据项id']!='其他')&(df1['字段数据项id']!='其他')&(df1['字段数据项id']!df1['字段名']=df1['字段名'].replace('_', ' ', regex=True)df1['字段名']=df1['字段名'].replace('_', ' ', regex=True)df2['字段数据项id']=df2['字段数据项id'].astype(str)df2['字段数据项id']=df2['字段数据项id'].astype(str)

2024-01-22 16:51:16 596 1

原创 EDA常用指标:四分位距IQR,变异系数CV,峰度,偏度,绝对中位差MAD介绍

1.四分位距IQRIQR指 四分位距(interquartile range, IQR) ,IQR = Q3 − Q1,又称四分差。是描述统计学中的一种方法,以确定第三四分位数和第一四分位数的区别。与方差、标准差一样,表示统计资料中各变量分散情形,但四分差更多为一种稳健统计(robust statistic),IQR能用来计算数据分布上下限,超过上下限的认为是异常值,下限=Q1-1.5IQR, 上限=Q3+1.5IQR2.变异系数CV。

2023-09-27 10:43:42 1779

原创 特征工程中常用编码方式优缺点

常用编码方式优缺点

2023-09-06 10:16:26 206

原创 欠采样方法:CNN(CondensedNearestNeighbour)和 ENN(EditedNearestNeighbours)

CNN(CondensedNearestNeighbour)和 ENN(EditedNearestNeighbours)算法是常用的欠采样算法,本文介绍了算法内容,和KNN算法的比较,以及CNN,ENN适用的不同场景

2023-03-14 10:05:30 3632

原创 spark报错:value xxx is not a member of Any

df1.rdd.filter(x=>x(1).contains("腾讯")).take(5)遇到这个问题此时可以先做类型转换:df1.rdd.filter(x=>x(1).toString.contains("腾讯")).take(5)对于变量类,可以使用asInstanceOfval a: Any = "123"val b = a.asInstanceOf[String]...

2021-01-08 13:59:58 4579

原创 spark:rdd 转换dataframe报错: Array takes type parameters;toDF is not a member of org.apache.spark.rdd

tdf4.select("id").rdd.map(x=>Array(x(0),cmls)).toDF("id","cmls").show()试图构造上述dataframe,其中cmls是个array[any]此时报错:value toDF is not a member of org.apache.spark.rdd.RDD[Array[Any]]尝试了网上的import sqlContext.implicits._. 不行后,发现是由于这个方法只针对下面几种格式:RD...

2020-12-22 14:03:14 896

原创 pyspark:dataframe使用pandas_udf做groupby,带多参数实现

pypsark的dataframe经常遇到要做groupby的场景,有两种方式可以实现,dataframe的pandas_udf、rdd的mapValues,后者需要先将dataframe转换成rdd再操作下面介绍dataframe的pandas_udf代码实现,由于pandas_udf做groupby传入参数只能是函数名,不能传入其他参数@pandas_udf(schema1, fun...

2020-04-11 17:11:02 3124

原创 Python装包报错:无法定位程序输入点OPENSSL_sk_new_reserve于动态链接库

刚开始在cmd 用conda install selenium 安不上搜索看到别的博主是替换Anaconda3\DLLs和Anaconda3\Library\bin其中一个libssl-1_1-x64 dlls文件到另一个文件夹在我的机子上没起作用最终解决:换成conda prompt命令窗口执行conda install selenium就安上了...

2020-03-20 16:50:57 1399

原创 pyspark join 出现重复列的问题

设有两个dataframe:df1,df2如果df3=df1.join(df2,df1.device_number=df2.device_number,"inner")df3就会出现两个相同列 device_number此时改成df3=df1.join(df2,“device_number”,"inner")就只有一个device_number了如果想多列key则df.j...

2020-02-27 10:34:35 3600 1

原创 pandas 中dataframe,groupby后得到的Series转换成dataframe

方法是先将整个结果使用dict形式创建dataframe,再用reset_index转换列名psdt1=df3.groupby(['id_number', 'prod_name'])['active_days'].sum()psdt2=pd.DataFrame({"active_sum":psdt1}).reset_index()psdt2...

2020-01-15 16:17:23 4379

原创 faiss:AssertionError: assert x.flags.contiguous

Faiss是Facebook AI团队开源的针对聚类和相似性搜索库用自己数据跑faiss示例代码报错:%time index = faiss.IndexFlatL2(d) # build the indexprint(index.is_trained)index.add(xb1) 搜了一下是因为faiss要求输入数据必须是连续数据,所以先要对数据进行连续化处理:np.asco...

2020-01-08 17:24:33 1425 1

原创 VectorAssembler:java.lang.IllegalArgumentException: Data type string of column xx is not supported

使用pyspark 中的VectorAssembler出现报错vectorAssembler = ft.VectorAssembler(inputCols=['cust_sex','cust_age'],outputCol='features')查看输入数据类型df1.printSchema()发现输入的inputCols的字段类型是string,而这个函数只接受flo...

2020-01-03 17:42:49 3182

原创 基于不完整数据集进行用户行为周期发掘(python)

本文主要算法阅读《ePeriodicity: Mining Event Periodicity from Incomplete Observations》这篇论文,进行了python的代码实现,并做出了相应改进,该算法的主要功能是,可以无监督地得到用户针对某事件(可以是使用某个APP,也可以是去某个实体地点)的行为周期和置信度;该算法的特点是,即使数据缺失较多,也能得到较好的结果。使用的场景可以是...

2019-11-22 15:23:48 925 1

原创 ValueError: This model has not yet been built. Build the model first by calling `build()` or calling

在使用keras构造lstm模型时遇到的报错,原代码:def build_model():model = Sequential()model.add(Dropout(dropout_rate))model.add(LSTM(units=100,input_shape=(90,7)))model.add(Dropout(dropout_rate)...

2019-11-20 15:01:22 12784 1

原创 ValueError:not enough values to unpack/ too many values to unpack

当pandas中对每一列进行apply操作,如果输出变量设置有问题,会报错ValueError:not enough values to unpack/ too many values to unpackdef mono_bin_replace_woe(Y,X,n=20): # 最优分箱 r = 0 good = Y.sum() bad = Y.count() - ...

2019-10-28 13:58:15 1262

原创 A value is trying to be set on a copy of a slice from a DataFrame

最初想把df1中第i列不等于-1的值都赋值为1,代码如下:df1[df1['体育资讯_m_visit_cnt_std_1m']!=-1].loc[:,'体育资讯_m_visit_cnt_std_1m']=1发现并没有得到转换,并且得到了A value is trying to be set on a copy of a slice from a DataFrame的warning...

2019-10-10 15:04:04 204

原创 Joining multiple DataFrames only supported for joining on index

pandas中多个dataframe想进行按列操作时,需要用join函数,根据函数参数列表DataFrame.join(self,other,on=None,how='left',lsuffix='',rsuffix='',sort=False)当指定了on等于某一列后,报错:Joining multiple DataFrames only supported for jo...

2019-10-10 14:51:11 1095 1

原创 pandas MultiIndex重新整理列

pandas中对dataframe进行groupby+统计操作后会生成MultiIndex如对df4的'prod_label_name2'进行聚合后,对'm_up_flow'列进行describe操作df55=df4.groupby(['prod_label_name2'])[['m_up_flow']].describe().fillna(0).reset_index()print(...

2019-10-09 16:56:29 837

原创 sql 遇到多个重复列名报错:Ambiguous column reference ***

做数据分析时,特征非常多,不可能一一列出,只能用*,关联两个表又出现列名相同影响下一步的工作,需要关联后执行drop

2018-07-04 10:55:20 52962 1

原创 Python 中dict 字典方法小结

Python 中字典用法小结

2017-09-19 10:56:22 1083

原创 创建dataframe并插入一行时报错:ValueError: Shape of passed values is (1, X), indices imply (X, X)

lis=[0,0,....0]shape(list)=1063colum=[1,2,3....,1603]试图test=pd.DataFrame(list,columns=id_column)报错ValueError: Shape of passed values is (1, 1603), indices imply (1603, 1603)因为这里col

2017-09-14 21:29:19 32669

原创 ubuntu14 上安装tensorflow 遇到的问题

安装遇到的一些问题记录一下以前安了关于tensorflow,bazel好多次,都没成功,放弃bazel了,使用pip安装按照官网输入pip3 install tensorflow 命令时 报错:Could not find any downloads that satisfy the requirement tensorflow查阅以后发现时pip3版本不行,查了pi

2017-08-24 19:41:55 3722

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除