自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

sisiel的博客

原创对LSTM的通俗易懂理解--可变权重

RNN的问题：长期依赖，即对短期的数据敏感，对比较远的长期数据不敏感，这是因为RNN隐藏状态权重在不同时刻是共享相同的，随着时间步的增加，梯度会指数级地衰减或者增长，导致梯度消失或者爆炸，导致RNN难以捕捉到在较长时间尺度上具有依赖关系的信息。门通俗理解就是一组**可变权重**，可以针对当前时刻选择要处理的信息做调整，进行遗忘存储等操作,可以看到下图2-12中，两个门控充当了权重的作用，这个权重是可以变化的，根据当前信息不断变化。这个门控是输入门、遗忘门、输出门。**这个门是怎么起作用的？

2024-04-12 10:55:36 541

原创 Pandas警告SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame

df2=df1[(df1['字段数据项id']!='其他')&(df1['字段数据项id']!='其他')&(df1['字段数据项id']!df1['字段名']=df1['字段名'].replace('_', ' ', regex=True)df1['字段名']=df1['字段名'].replace('_', ' ', regex=True)df2['字段数据项id']=df2['字段数据项id'].astype(str)df2['字段数据项id']=df2['字段数据项id'].astype(str)

2024-01-22 16:51:16 725 2

原创 EDA常用指标：四分位距IQR，变异系数CV，峰度，偏度，绝对中位差MAD介绍

1.四分位距IQRIQR指四分位距（interquartile range, IQR） ,IQR = Q3 − Q1，又称四分差。是描述统计学中的一种方法，以确定第三四分位数和第一四分位数的区别。与方差、标准差一样，表示统计资料中各变量分散情形，但四分差更多为一种稳健统计（robust statistic），IQR能用来计算数据分布上下限，超过上下限的认为是异常值，下限=Q1-1.5IQR，上限=Q3+1.5IQR2.变异系数CV。

2023-09-27 10:43:42 3256

原创特征工程中常用编码方式优缺点

常用编码方式优缺点

2023-09-06 10:16:26 338

原创欠采样方法：CNN（CondensedNearestNeighbour）和 ENN（EditedNearestNeighbours）

CNN（CondensedNearestNeighbour）和 ENN（EditedNearestNeighbours）算法是常用的欠采样算法，本文介绍了算法内容，和KNN算法的比较，以及CNN,ENN适用的不同场景

2023-03-14 10:05:30 4709

原创 spark报错：value xxx is not a member of Any

df1.rdd.filter(x=>x(1).contains("腾讯")).take(5)遇到这个问题此时可以先做类型转换：df1.rdd.filter(x=>x(1).toString.contains("腾讯")).take(5)对于变量类，可以使用asInstanceOfval a: Any = "123"val b = a.asInstanceOf[String]...

2021-01-08 13:59:58 4843

原创 spark:rdd 转换dataframe报错: Array takes type parameters；toDF is not a member of org.apache.spark.rdd

tdf4.select("id").rdd.map(x=>Array(x(0),cmls)).toDF("id","cmls").show()试图构造上述dataframe,其中cmls是个array[any]此时报错：value toDF is not a member of org.apache.spark.rdd.RDD[Array[Any]]尝试了网上的import sqlContext.implicits._. 不行后，发现是由于这个方法只针对下面几种格式:RD...

2020-12-22 14:03:14 1000

原创 pyspark:dataframe使用pandas_udf做groupby，带多参数实现

pypsark的dataframe经常遇到要做groupby的场景，有两种方式可以实现，dataframe的pandas_udf、rdd的mapValues，后者需要先将dataframe转换成rdd再操作下面介绍dataframe的pandas_udf代码实现，由于pandas_udf做groupby传入参数只能是函数名，不能传入其他参数@pandas_udf(schema1, fun...

2020-04-11 17:11:02 3331

原创 Python装包报错：无法定位程序输入点OPENSSL_sk_new_reserve于动态链接库

刚开始在cmd 用conda install selenium 安不上搜索看到别的博主是替换Anaconda3\DLLs和Anaconda3\Library\bin其中一个libssl-1_1-x64 dlls文件到另一个文件夹在我的机子上没起作用最终解决：换成conda prompt命令窗口执行conda install selenium就安上了...

2020-03-20 16:50:57 1463

原创 pyspark join 出现重复列的问题

设有两个dataframe:df1,df2如果df3=df1.join(df2,df1.device_number=df2.device_number,"inner")df3就会出现两个相同列 device_number此时改成df3=df1.join(df2,“device_number”,"inner")就只有一个device_number了如果想多列key则df.j...

2020-02-27 10:34:35 3727 1

原创 pandas 中dataframe，groupby后得到的Series转换成dataframe

方法是先将整个结果使用dict形式创建dataframe,再用reset_index转换列名psdt1=df3.groupby(['id_number', 'prod_name'])['active_days'].sum()psdt2=pd.DataFrame({"active_sum":psdt1}).reset_index()psdt2...

2020-01-15 16:17:23 4615

原创 faiss:AssertionError: assert x.flags.contiguous

Faiss是Facebook AI团队开源的针对聚类和相似性搜索库用自己数据跑faiss示例代码报错：%time index = faiss.IndexFlatL2(d) # build the indexprint(index.is_trained)index.add(xb1) 搜了一下是因为faiss要求输入数据必须是连续数据，所以先要对数据进行连续化处理：np.asco...

2020-01-08 17:24:33 1564 1

原创 VectorAssembler:java.lang.IllegalArgumentException: Data type string of column xx is not supported

使用pyspark 中的VectorAssembler出现报错vectorAssembler = ft.VectorAssembler(inputCols=['cust_sex','cust_age'],outputCol='features')查看输入数据类型df1.printSchema()发现输入的inputCols的字段类型是string，而这个函数只接受flo...

2020-01-03 17:42:49 3369

原创基于不完整数据集进行用户行为周期发掘（python)

本文主要算法阅读《ePeriodicity: Mining Event Periodicity from Incomplete Observations》这篇论文，进行了python的代码实现，并做出了相应改进,该算法的主要功能是，可以无监督地得到用户针对某事件(可以是使用某个APP，也可以是去某个实体地点)的行为周期和置信度；该算法的特点是，即使数据缺失较多，也能得到较好的结果。使用的场景可以是...

2019-11-22 15:23:48 1035 1

原创 ValueError: This model has not yet been built. Build the model first by calling `build()` or calling

在使用keras构造lstm模型时遇到的报错，原代码：def build_model():model = Sequential()model.add(Dropout(dropout_rate))model.add(LSTM(units=100,input_shape=(90,7)))model.add(Dropout(dropout_rate)...

2019-11-20 15:01:22 12886 1

原创 ValueError:not enough values to unpack/ too many values to unpack

当pandas中对每一列进行apply操作，如果输出变量设置有问题，会报错ValueError:not enough values to unpack/ too many values to unpackdef mono_bin_replace_woe(Y,X,n=20): # 最优分箱 r = 0 good = Y.sum() bad = Y.count() - ...

2019-10-28 13:58:15 1377

原创 A value is trying to be set on a copy of a slice from a DataFrame

最初想把df1中第i列不等于-1的值都赋值为1,代码如下：df1[df1['体育资讯_m_visit_cnt_std_1m']!=-1].loc[:,'体育资讯_m_visit_cnt_std_1m']=1发现并没有得到转换，并且得到了A value is trying to be set on a copy of a slice from a DataFrame的warning...

2019-10-10 15:04:04 242

原创 Joining multiple DataFrames only supported for joining on index

pandas中多个dataframe想进行按列操作时，需要用join函数，根据函数参数列表DataFrame.join(self,other,on=None,how='left',lsuffix='',rsuffix='',sort=False)当指定了on等于某一列后，报错：Joining multiple DataFrames only supported for jo...

2019-10-10 14:51:11 1207 1

原创 pandas MultiIndex重新整理列

pandas中对dataframe进行groupby+统计操作后会生成MultiIndex如对df4的'prod_label_name2'进行聚合后，对'm_up_flow'列进行describe操作df55=df4.groupby(['prod_label_name2'])[['m_up_flow']].describe().fillna(0).reset_index()print(...

2019-10-09 16:56:29 905

原创 sql 遇到多个重复列名报错：Ambiguous column reference ***

做数据分析时，特征非常多，不可能一一列出，只能用*，关联两个表又出现列名相同影响下一步的工作，需要关联后执行drop

2018-07-04 10:55:20 54575

原创 Python 中dict 字典方法小结

Python 中字典用法小结

2017-09-19 10:56:22 1135

原创创建dataframe并插入一行时报错：ValueError: Shape of passed values is (1, X), indices imply (X, X)

lis=[0,0,....0]shape（list)=1063colum=[1,2,3....,1603]试图test=pd.DataFrame(list，columns=id_column)报错ValueError: Shape of passed values is (1, 1603), indices imply (1603, 1603)因为这里col

2017-09-14 21:29:19 32915

原创 ubuntu14 上安装tensorflow 遇到的问题

安装遇到的一些问题记录一下以前安了关于tensorflow,bazel好多次，都没成功，放弃bazel了，使用pip安装按照官网输入pip3 install tensorflow 命令时报错：Could not find any downloads that satisfy the requirement tensorflow查阅以后发现时pip3版本不行，查了pi

2017-08-24 19:41:55 3802

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除