- 博客(10)
- 收藏
- 关注
转载 python中的排序字典collections.OrderedDict()
很多人认为python中的字典是无序的,因为它是按照hash来存储的,但是python中有个模块collections(英文,收集、集合),里面自带了一个子类OrderedDict,实现了对字典对象中元素的排序。使用OrderedDict会根据放入元素的先后顺序进行排序。所以输出的值是排好序的。import collectionsprint("Regular dictionary")d={}d['a']='A'd['b']='B'd['c']='C'd['1'] = '1'for k,v
2020-08-30 18:05:05 930
原创 python 中 numpy.dtype.kind属性
numpy.dtype.kinddtype.kindA character code (one of ‘biufcmMOSUV’) identifying the general kind of data.b booleani signed integeru unsigned integerf floating-pointc complex floating-pointm timedeltaM datetimeO objectS (byte-)stringU Un
2020-08-24 14:54:01 1590
转载 为什么金融领域建模需要进行WoE和IV
金融领域(尤其是评分卡)建模,模型并不复杂,虽然网上到处都是神经网络、xgboost的文章,但当下的建模过程中(至少在金融风控领域)并没有完全摆脱logistic模型,原因大致有以下几点:1.logistic模型客群变化的敏感度不如其他高复杂度模型,因此稳健更好,鲁棒性更强。2.模型直观。系数含义好阐述、易理解。对金融领域高管以及银行出身的建模专家,变量系数可以跟他们的业内知识做交叉验证,更容易让人信服。3.也是基于2的模型直观性,当模型效果衰减的时候,logistic模型能更好的诊断病因。在使
2020-08-23 14:35:05 2194
原创 Spark sql 利用COALESCE()函数full join 两张DataFrame
我们经常使用spark时会对表合并import spark.implicits._import spark.implicits._var data1 = Seq( | ("1", "ming", "hlj"), | ("2", "tian", "jl"), | ("3", "wang", "ln"), | ("4", "qi", "bj"), | ("5", "sun", "tj") | ).toDF("useid", "name", "live") var data
2020-08-19 15:27:11 2171
原创 spark读写相同路径文件
有些情况下,需要spark读取A路径文件,处理后再存入A路径,如不注意,会报错!!!1.读写相同的HIVE表spark读取hive表: // 原始数据 final_data = spark.sql(s"select * from ${userid}.${datasetid}") .....对数据操作..... 不能 select 后在overwrite同一张表:错误的: Spark报错final_data.write.mode("overwr
2020-08-18 17:24:29 1283 1
原创 spark通过jdbc方法连接数据库
jdbc()方法Spark SQL支持数据源使用JDBC从其他数据库读取数据。 与使用JdbcRDD相比,应优先使用此功能。 这是因为结果以DataFrame的形式返回,并且可以轻松地在Spark SQL中进行处理或与其他数据源合并。 JDBC数据源也更易于从Java或Python使用,因为它不需要用户提供ClassTag。 (请注意,这与Spark SQL JDBC服务器不同,后者允许其他应用程序使用Spark SQL运行查询)。该方法位于 : org.apache.spark.sql中的 Data
2020-08-18 15:03:01 4438 1
原创 Spark的DataFrame存储的Mode模式选择
spark的dataframe存储中都会调用write的mode方法:data.write.mode(“append”).saveAsTable(s"userid.{userid}.userid.{datasetid}")data.write.mode(SaveMode.Overwrite).parquet(hdfspath)但不同时候的参数是不同的先看一下源码:spark-v2.3.0: def mode(saveMode: SaveMode): DataFrameWriter[T]
2020-08-13 17:38:21 7022
原创 Spark机器学习中的常用算法特征重要性筛选FeatureScore
1 logisticRegression2 randomforest3 xgboosthttps://stackoverflow.com/questions/62769574/spark-xgboost4j-how-to-get-feature-importancehttps://cloud.tencent.com/developer/ask/216071
2020-08-06 19:06:20 2768
原创 Spark对两个列数不一致DataFrame进行上下拼接
之前已经在博客中介绍了spark的dataframe利用union 等一系列方法进行拼接,详情请见Spark中对Dataframe的union 、unionAll和 unionByName方法说明但是在那篇博客也提到,利用union的这些方法,必须保证两个dataframe必须列数一致(unionByName方法还需要所有列名必须一致)。那么如果如果dfA和dfB的列长度不一致,应该怎么去上下拼接呢?val data2 = Seq( | ("1", null, "hlj", null),
2020-08-04 10:24:49 3171
原创 spark中DataFrame存在空值是否计算情况说明
一直有个疑问,出现空值数据列,在计算时,是否会被计算?1. 空值出现在计算字段中给定某个DataFrame,其中包含空值:val data1 = Seq( | ("1", "ming", "hlj", null), | ("2", "tian", "jl", "1"), | ("3", "ming", "hg", "1"), | ("4", "tian", "bj", "1"), | ("5", "ming", "tj", "1") | ).toDF("useid", "name"
2020-08-03 18:24:21 2614
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人