2019年07月_清霄

09月 07月 01月

原创 SparkSQL实现类似flatmap

RDD中flatmap可以将多信息化的列拍平，那么Spark SQL如何实现这个功能？如下：scala> val sentenceDataFrame = spark.createDataFrame(Seq( | (0, "Hi I heard about Spark"), | (1, "I wish Java could use case classes...

2019-07-15 15:16:38 2833

原创网站用户行为分析的日志接收服务

分享一个用户http的用户行为日志收集服务，支持实时日志接收到kafka的实时计算和落盘日志的离线计算。编译nginx的时候新增第三方模块即可 ./configure --prefix=./install --add-module=./ngx_http_behavior_click_module --with-http_realip_module编译完成安装配置 location /beh...

2019-07-15 14:17:14 568

原创基于SparkMLLib的随机决策森林多元回归模型

时间问题，有时间再说模型的训练，包括决策树/决策森林原理，特征向量的处理，因子的选择，超参数调整，管道，决策森林和决策树的关系，本次直接上干货，代码中有适量的注释。工程数据：https://github.com/johncai0/RandomForestClassification/tree/master/data工程库：https://github.com/johncai0/Random...

2019-07-14 20:07:21 578

原创基于Spark MlLib的协同过滤推荐模型

目录1. 介绍2. 开始干货a. 准备数据b. 数据标准化c. 模型训练d. 模型评估e. 推荐输出3. 拓展1. 介绍官方文档说明：http://spark.apache.org/docs/latest/ml-collaborative-filtering.html本文章源代码工程：https://github.com/johncai0/A...

2019-07-14 16:07:09 796

原创记一次Spark MlLib中ASL算法的参数接受问题

在Spark MlLib中的ASL 交替最小二乘法推荐模型，接收的参数为userID：IntitemID：Int评分：Int那么产生了两个问题：1. 生产数据的用户id和itemID可能是字符串2. 最大值问题首先说第一个问题，如果是字符串，需要重新定义整形的ID，重新定义ID的方式有两种RDD：data.map(_.uid).distinct().zipWithI...

2019-07-14 00:50:34 716

原创 SparkSQL中UDF的定义方式

1. 老的Hive中的方式，支持.sql算子中的sql调用，例如select udf（col1） from 注册的表。def myUdf(id: Int) = s"tag$id"sqlContext.udf.register("myUdf", myUdf(_:Int))使用df.registerTempTable(“df”)sqlContext.sql（“select myU...

2019-07-13 23:35:18 419

gan，wgan对抗生成网络二次元头像训练数据集

龙龙老师教程gan，wgan 280M训练数据集，二次元头像，一共280M，原来的baidupan里的失效了。

2020-07-05

windows下获取时间戳

windows bat下获取冲1970年1月1日0：00：00开始到此刻的秒数。

2019-01-28

spark高级数据分析附带源代码

spark高级数据分析一书中所有的示例代码，每章都有本书中会有附带源代码实例的字样，但是京东买的书没有附带源代码。都在这儿了，拿走不谢。

2018-06-19

1.本软件纯绿色 2.所需环境.net 2.0 3.本程序主要正对mwms4后台的iis创建作用 1.自动创建IIS站点虚拟主机 2.创建匿名用户映射的虚拟用户 3.创建程序池 4.创建目录 5.调整目录权限 6.设置IIS虚拟主机.net版本 7.设置access日志路径 8.设置iis匿名用户映射的本地用户 9.添加虚拟html映射注意：如果没有使用虚拟html（普通站），建站成功后需要将虚拟html映射删除！作者：john blog：blog.csdn.net/cwg_1992 邮箱：cwg1992@163.com Q Q: 994414615

2014-01-15

思科（cisco）1710 系统img/os

思科1710设备的 os img/bin 可供小凡模拟器，GNS3等实用！

2014-01-05

分布式文件系统

分布式文件系统的比较，各种文件系统各方面的比较。

2013-02-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

数据之路-忆梦前程

原创 SparkSQL实现类似flatmap

原创网站用户行为分析的日志接收服务

原创基于SparkMLLib的随机决策森林多元回归模型

原创基于Spark MlLib的协同过滤推荐模型

原创记一次Spark MlLib中ASL算法的参数接受问题

原创 SparkSQL中UDF的定义方式

gan，wgan对抗生成网络二次元头像训练数据集

windows下获取时间戳

spark高级数据分析附带源代码

IIS建站工具

思科（cisco）1710 系统img/os

分布式文件系统

空空如也

原创 SparkSQL实现类似flatmap

原创 网站用户行为分析的日志接收服务

原创 基于SparkMLLib的随机决策森林多元回归模型

原创 基于Spark MlLib的协同过滤推荐模型

原创 记一次Spark MlLib中ASL算法的参数接受问题

原创 SparkSQL中UDF的定义方式

gan，wgan对抗生成网络二次元头像训练数据集

windows下获取时间戳

spark高级数据分析 附带源代码

IIS建站工具

思科（cisco）1710 系统img/os

分布式文件系统

空空如也

原创网站用户行为分析的日志接收服务

原创基于SparkMLLib的随机决策森林多元回归模型

原创基于Spark MlLib的协同过滤推荐模型

原创记一次Spark MlLib中ASL算法的参数接受问题

spark高级数据分析附带源代码