大数据
文章平均质量分 53
ml_hhy
这个作者很懒,什么都没留下…
展开
-
roc曲线 vs pr曲线(AUC vs f1)
一直不理解auc值与F1值的应用场景,什么情况下使用哪种指标可以更好观察模型表现之前的理解是觉得使用f1值(即采用召回率和精确率)来评价模型会更好。因为召回率和精确率更直观,可以使业务方对模型的预测效果有较准确预期但roc其实更应该更多使用接下来本篇会将roc曲线与pr曲线做对比,并且介绍auc的应用场景ROC曲线 vs PR曲线相比P-R曲线,ROC曲线有一个特点,当正负样本的分布发...原创 2019-12-26 16:00:39 · 2771 阅读 · 0 评论 -
Linux离线安装pyspark与尝试使用pyspark连接数据库
首先第一步: 安装anconda(并且带上了pandas, numpy, scikit-learn)流程1, 首先安装anconda2./Anaconda2-5.2.0-Linux-x86_64.sh2, 配置全局变量vi /etc/profile将anaconda2的所在的bin加入到profile文件最后一行export PATH=/home/anaconda2/bin:$PATH...原创 2018-09-28 12:29:21 · 3080 阅读 · 0 评论 -
ods,dw,dm理解
ods,dw,dm解释与理解ods:操作性数据仓库ods的应用场景1.在业务系统和数据仓库之间形成一个隔离,ods直接存放从业务系统抽取过来的数据,这些数据从结构和数据上与业务系统保持一致,降低了数据抽取的复杂性。2.转移一部分业务系统的细节查询功能,因为ods存放的数据与业务系统相同,原来有业务系统产生的报表,现在可以从ods中产生了。3.完成数据仓库中不能完成的功能。ods存放的是明细...转载 2018-11-01 17:02:38 · 12688 阅读 · 0 评论 -
pyspark往elasticsearch 写入数据 零停机日更新
from elasticsearch import Elasticsearchfrom elasticsearch.helpers import reindexfrom datetime import datetimeimport jsonimport hashlib# ES配置格式# ES_CONF= {# "es.nodes" : "XXX.XX.XX.XX",# "e...原创 2019-06-22 09:25:10 · 1114 阅读 · 0 评论 -
pyspark常用技巧
# spark读取pandas dataframe,形成spark dataframesparkDF = con_pyspark.hc.createDataFrame(df)sparkDF.write.mode("overwrite").partitionBy(['stat_time']).saveAsTable("tmp_db.tmp_test")原创 2019-06-24 12:24:42 · 354 阅读 · 0 评论