自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Buevara的博客

计算机爱好者

  • 博客(10)
  • 收藏
  • 关注

转载 python中的排序字典collections.OrderedDict()

很多人认为python中的字典是无序的,因为它是按照hash来存储的,但是python中有个模块collections(英文,收集、集合),里面自带了一个子类OrderedDict,实现了对字典对象中元素的排序。使用OrderedDict会根据放入元素的先后顺序进行排序。所以输出的值是排好序的。import collectionsprint("Regular dictionary")d={}d['a']='A'd['b']='B'd['c']='C'd['1'] = '1'for k,v

2020-08-30 18:05:05 930

原创 python 中 numpy.dtype.kind属性

numpy.dtype.kinddtype.kindA character code (one of ‘biufcmMOSUV’) identifying the general kind of data.b booleani signed integeru unsigned integerf floating-pointc complex floating-pointm timedeltaM datetimeO objectS (byte-)stringU Un

2020-08-24 14:54:01 1590

转载 为什么金融领域建模需要进行WoE和IV

金融领域(尤其是评分卡)建模,模型并不复杂,虽然网上到处都是神经网络、xgboost的文章,但当下的建模过程中(至少在金融风控领域)并没有完全摆脱logistic模型,原因大致有以下几点:1.logistic模型客群变化的敏感度不如其他高复杂度模型,因此稳健更好,鲁棒性更强。2.模型直观。系数含义好阐述、易理解。对金融领域高管以及银行出身的建模专家,变量系数可以跟他们的业内知识做交叉验证,更容易让人信服。3.也是基于2的模型直观性,当模型效果衰减的时候,logistic模型能更好的诊断病因。在使

2020-08-23 14:35:05 2194

原创 Spark sql 利用COALESCE()函数full join 两张DataFrame

我们经常使用spark时会对表合并import spark.implicits._import spark.implicits._var data1 = Seq( | ("1", "ming", "hlj"), | ("2", "tian", "jl"), | ("3", "wang", "ln"), | ("4", "qi", "bj"), | ("5", "sun", "tj") | ).toDF("useid", "name", "live") var data

2020-08-19 15:27:11 2171

原创 spark读写相同路径文件

有些情况下,需要spark读取A路径文件,处理后再存入A路径,如不注意,会报错!!!1.读写相同的HIVE表spark读取hive表: // 原始数据 final_data = spark.sql(s"select * from ${userid}.${datasetid}") .....对数据操作..... 不能 select 后在overwrite同一张表:错误的: Spark报错final_data.write.mode("overwr

2020-08-18 17:24:29 1283 1

原创 spark通过jdbc方法连接数据库

jdbc()方法Spark SQL支持数据源使用JDBC从其他数据库读取数据。 与使用JdbcRDD相比,应优先使用此功能。 这是因为结果以DataFrame的形式返回,并且可以轻松地在Spark SQL中进行处理或与其他数据源合并。 JDBC数据源也更易于从Java或Python使用,因为它不需要用户提供ClassTag。 (请注意,这与Spark SQL JDBC服务器不同,后者允许其他应用程序使用Spark SQL运行查询)。该方法位于 : org.apache.spark.sql中的 Data

2020-08-18 15:03:01 4438 1

原创 Spark的DataFrame存储的Mode模式选择

spark的dataframe存储中都会调用write的mode方法:data.write.mode(“append”).saveAsTable(s"userid.{userid}.userid.{datasetid}")data.write.mode(SaveMode.Overwrite).parquet(hdfspath)但不同时候的参数是不同的先看一下源码:spark-v2.3.0: def mode(saveMode: SaveMode): DataFrameWriter[T]

2020-08-13 17:38:21 7022

原创 Spark机器学习中的常用算法特征重要性筛选FeatureScore

1 logisticRegression2 randomforest3 xgboosthttps://stackoverflow.com/questions/62769574/spark-xgboost4j-how-to-get-feature-importancehttps://cloud.tencent.com/developer/ask/216071

2020-08-06 19:06:20 2768

原创 Spark对两个列数不一致DataFrame进行上下拼接

之前已经在博客中介绍了spark的dataframe利用union 等一系列方法进行拼接,详情请见Spark中对Dataframe的union 、unionAll和 unionByName方法说明但是在那篇博客也提到,利用union的这些方法,必须保证两个dataframe必须列数一致(unionByName方法还需要所有列名必须一致)。那么如果如果dfA和dfB的列长度不一致,应该怎么去上下拼接呢?val data2 = Seq( | ("1", null, "hlj", null),

2020-08-04 10:24:49 3171

原创 spark中DataFrame存在空值是否计算情况说明

一直有个疑问,出现空值数据列,在计算时,是否会被计算?1. 空值出现在计算字段中给定某个DataFrame,其中包含空值:val data1 = Seq( | ("1", "ming", "hlj", null), | ("2", "tian", "jl", "1"), | ("3", "ming", "hg", "1"), | ("4", "tian", "bj", "1"), | ("5", "ming", "tj", "1") | ).toDF("useid", "name"

2020-08-03 18:24:21 2614

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除