Bingo

  人生要学会沉淀,沉淀经验,沉淀心情,沉淀自己。

机器学习常用评估指标的前世今生

 在机器学习中,性能指标(Metrics)是衡量一个模型好坏的关键,通过衡量模型输出y_predict和y_true之间的某种“距离”得出的。   性能指标往往使我们做模型时的最终目标,如准确率,召回率,敏感度等等,但是性能指标常常因为不可微分,无法作为优化的loss函数,因此采用如cross-...

2018-12-13 11:30:02

阅读数:43

评论数:0

利用 R 语言对用户进行深度挖掘

作者简介:谢佳标 乐逗游戏高级数据分析师,负责大数据挖掘及可视化。资深 R 语言用户,有九年以上数据挖掘工作实战经验,多次在中国 R 语言大会上作主题演讲。与张良均老师、杨坦老师合著的《R 语言与数据挖掘》一书已在 2016 年 7 月出版,新书《R 语言游戏数据分析》一书也即将于 2017 年...

2018-11-29 11:47:11

阅读数:48

评论数:0

dplyr:六個基本資料處理技法

摘要 本文簡介如何使用 dplyr 與 base R 語法進行六個基本資料處理技法,並支持初學者先從 dplyr 開始做基本資料處理技法這個論點。 論點起源 在 Tidyverse:R 語言學習之旅的新起點一文中我們提到過新興的 R 語言學習路徑可以從 tidyverse 這個套件起始,而非...

2018-11-27 17:00:05

阅读数:31

评论数:0

复杂树状网络的可视化

  基于R语言networkD3包实现,可以非常方的画一般的树状图或者层次聚类数状图,很多时候,需要表达关联关系或者层次关系,树状图是一种非常好的可视化图形。下面教大家怎么构造数据结构并画出图形。 一、先看一个官方的例子 Flare <- jsonlite::fro...

2018-11-22 14:13:03

阅读数:48

评论数:0

使用R包networkD3绘制炫酷的动态关系网络

引言 在数据可视化领域,关系网络数据的可视化一直是一个受到广泛关注的话题。 我们经常会看到这样的复杂网络关系图。   也会经常看到一些影视作品的人物关系图,例如:   我们可以从图中清晰地了解到不同人物之间的关系,但是这样静态的图片无法满足我们的一些深层次需求,比如: 如何快...

2018-11-22 11:52:01

阅读数:92

评论数:0

下载和安装R、RStudio !~~~

         现如今,R语言是统计领域广泛使用的工具,是属于GNU系统的一个自由、免费、源代码开放的软件,是用于统计计算和统计绘图的优秀工具。而RStudio是...

2018-11-16 11:45:12

阅读数:36

评论数:0

Spark-SQL之DataFrame操作大全

  Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。   本文中的代码基于Spark...

2018-11-15 16:21:30

阅读数:31

评论数:1

使用 Spark MLlib 做 K-means 聚类分析

引言 提起机器学习 (Machine Learning),相信很多计算机从业者都会对这个技术方向感到兴奋。然而学习并使用机器学习算法来处理数据却是一项复杂的工作,需要充足的知识储备,如概率论,数理统计,数值逼近,最优化理论等。机器学习旨在使计算机具有人类一样的学习能力和模仿能力,这也是实现人工智...

2018-11-15 09:36:18

阅读数:48

评论数:0

数据特征的标准化和归一化你了解多少?

一、标准化/归一化定义 归一化和标准化经常被搞混,程度还比较严重,非常干扰大家的理解。为了方便后续的讨论,必须先明确二者的定义。 归一化 就是将训练集中某一列数值特征(假设是第i列)的值缩放到0和1之间。方法如下所示:     标准化 就是将训练集中某一列数值特征(假设是第i列)...

2018-11-13 20:49:31

阅读数:38

评论数:0

吐血推荐珍藏的Flask资源

Flask 是 Python 中最流行的 Web 框架之一,以小巧、灵活、可扩展性强著称,相比 Django,它给了开发者最大限度的自由,如果你不喜欢关系型数据库,ok,没问题,切换成本非常低,而 Django 呢?你能遇到的问题它都帮你想好并且提供了对应解决方案,你自己就不要去重复造轮子了,比如...

2018-11-12 10:09:46

阅读数:30

评论数:0

Spark入门实战系列--9.Spark图计算GraphX介绍及实例

1、GraphX介绍 1.1 GraphX应用背景 Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。 众所周知·,社交网络中人与人之间有很多关系链,例如Twitter、Facebook、微博和...

2018-11-07 15:39:33

阅读数:30

评论数:0

鸡汤

小农意识的具体表现 一、小富即安 有小农意识的人,其追求相对较低,只要超过了旱涝保收,吃饱喝足略有结余的目标,就会产生富有的感觉。其结果一是没有了从前那种吃苦耐劳,不干活就要饿肚子的危机感;二是有了结余就开始琢磨着享受,“烧香修坟包二奶”而不懂得把结余投入再生产,让结余有更多的结余;三是飘然自...

2018-11-05 11:40:18

阅读数:59

评论数:0

删除过期文件的shell脚本(linux)

在linux下如何删除过期的文件 crontab -e  中添加      0 0 * * * find /home/jms -type f -mtime +2 -exec rm -f {} \ /home/jms是查找文件的路径。  -type f是指定文件类型为普通文件。  -mt...

2018-10-22 12:30:23

阅读数:36

评论数:0

手游LTV(生命周期价值)计算公式

在承接APP推广项目中,手游价值变现最直接,核心是获取更多的充值,其中LTV(Lifetime-Value生命周期价值)是一个重要参考指标,可以理解为玩家在其生命周期内对游戏的平均贡献值,为什么要计算LTV呢? 一、LTV 的用途 在游戏进入市场推广阶段后,手游LTV可以有以下两点用途: 计...

2018-09-14 11:32:44

阅读数:362

评论数:0

win7 旗舰版关闭自动更新方法详解

 现在普遍都是用win7系统,在Win7系统的使用群体中win7旗舰版系统又是最大的一部分。今天win7之家 小编要向大家介绍的电脑计算机技巧就是“win7旗舰版关闭自动更新方法”。   本来电脑系统需要更新倒是没有什么坏处,自动更新的系统可以帮助电脑获取最新最好的资源,为什么要关闭系统自动更新...

2018-09-14 09:08:32

阅读数:203

评论数:0

hive 空值判断

hive中空值判断基本分两种: 1、NULL 与 \Nhive在底层数据中如何保存和标识NULL,是由            alter table name SET SERDEPROPERTIES('serialization.null.format' = '\N'); 参数控制的比如: ...

2018-09-04 18:33:30

阅读数:171

评论数:0

Hive 条件判断

Hive条件判断 if,coalesce,case…when Hive条件判断 if,coalesce,case…when 事例及说明 IF( Test Condition, True Value, False Value ) COALESCE( value1,value2,… ) CA...

2018-09-04 18:24:02

阅读数:129

评论数:0

Hive 中对 json 处理

应用场景:使用Hive对日志信息进行查询分解,log里面记录的是json形式的数据: {"logid":"5d40e1af-19f7-4aad-af8f-c7247e322e5c","souc&q...

2018-09-04 17:57:29

阅读数:87

评论数:0

hive 中 json 字符串解析之 get_json_object 与 json_tuple

    在技术对app进行埋点时,会讲多个字段存放在一个数组中,因此模型调用数据时,要对埋点数据进行解析,以作进一步的清洗。本文将介绍解析json字符串的两个函数:get_json_object和json_tuple。 表结构如下: 一、get_json_object 函数的作用:用来解...

2018-09-04 17:45:35

阅读数:294

评论数:0

MySQL时间戳和时间的获取/相互转换/格式化

获取当前时间戳 select unix_timestamp();1 同 select unix_timestamp(now());1 获取当前时间 select now();1 时间转时间戳 select unix_timestamp('2018-01-15 09:45:16');1...

2018-09-04 17:36:09

阅读数:73

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭