2020年08月_楓尘林间

转载 python中的排序字典collections.OrderedDict()

很多人认为python中的字典是无序的，因为它是按照hash来存储的，但是python中有个模块collections(英文，收集、集合)，里面自带了一个子类OrderedDict，实现了对字典对象中元素的排序。使用OrderedDict会根据放入元素的先后顺序进行排序。所以输出的值是排好序的。import collectionsprint("Regular dictionary")d={}d['a']='A'd['b']='B'd['c']='C'd['1'] = '1'for k,v

2020-08-30 18:05:05 930

原创 python 中 numpy.dtype.kind属性

numpy.dtype.kinddtype.kindA character code (one of ‘biufcmMOSUV’) identifying the general kind of data.b booleani signed integeru unsigned integerf floating-pointc complex floating-pointm timedeltaM datetimeO objectS (byte-)stringU Un

2020-08-24 14:54:01 1590

转载为什么金融领域建模需要进行WoE和IV

金融领域(尤其是评分卡)建模，模型并不复杂，虽然网上到处都是神经网络、xgboost的文章，但当下的建模过程中（至少在金融风控领域）并没有完全摆脱logistic模型，原因大致有以下几点：1.logistic模型客群变化的敏感度不如其他高复杂度模型，因此稳健更好，鲁棒性更强。2.模型直观。系数含义好阐述、易理解。对金融领域高管以及银行出身的建模专家，变量系数可以跟他们的业内知识做交叉验证，更容易让人信服。3.也是基于2的模型直观性，当模型效果衰减的时候，logistic模型能更好的诊断病因。在使

2020-08-23 14:35:05 2194

原创 Spark sql 利用COALESCE()函数full join 两张DataFrame

2020-08-19 15:27:11 2171

原创 spark读写相同路径文件

有些情况下，需要spark读取A路径文件，处理后再存入A路径,如不注意，会报错！！！1.读写相同的HIVE表spark读取hive表： // 原始数据 final_data = spark.sql(s"select * from ${userid}.${datasetid}") .....对数据操作..... 不能 select 后在overwrite同一张表:错误的： Spark报错final_data.write.mode("overwr

2020-08-18 17:24:29 1283 1

原创 spark通过jdbc方法连接数据库

jdbc()方法Spark SQL支持数据源使用JDBC从其他数据库读取数据。与使用JdbcRDD相比，应优先使用此功能。这是因为结果以DataFrame的形式返回，并且可以轻松地在Spark SQL中进行处理或与其他数据源合并。 JDBC数据源也更易于从Java或Python使用，因为它不需要用户提供ClassTag。（请注意，这与Spark SQL JDBC服务器不同，后者允许其他应用程序使用Spark SQL运行查询）。该方法位于 : org.apache.spark.sql中的 Data

2020-08-18 15:03:01 4438 1

原创 Spark的DataFrame存储的Mode模式选择

spark的dataframe存储中都会调用write的mode方法：data.write.mode(“append”).saveAsTable(s"userid.{userid}.userid.{datasetid}")data.write.mode(SaveMode.Overwrite).parquet(hdfspath)但不同时候的参数是不同的先看一下源码：spark-v2.3.0： def mode(saveMode: SaveMode): DataFrameWriter[T]

2020-08-13 17:38:21 7022

原创 Spark机器学习中的常用算法特征重要性筛选FeatureScore

1 logisticRegression2 randomforest3 xgboosthttps://stackoverflow.com/questions/62769574/spark-xgboost4j-how-to-get-feature-importancehttps://cloud.tencent.com/developer/ask/216071

2020-08-06 19:06:20 2768

原创 Spark对两个列数不一致DataFrame进行上下拼接

之前已经在博客中介绍了spark的dataframe利用union 等一系列方法进行拼接，详情请见Spark中对Dataframe的union 、unionAll和 unionByName方法说明但是在那篇博客也提到，利用union的这些方法，必须保证两个dataframe必须列数一致(unionByName方法还需要所有列名必须一致)。那么如果如果dfA和dfB的列长度不一致，应该怎么去上下拼接呢？val data2 = Seq( | ("1", null, "hlj", null),

2020-08-04 10:24:49 3171

原创 spark中DataFrame存在空值是否计算情况说明

2020-08-03 18:24:21 2614

Buevara的博客