自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据之眸

手握代码,心怀天下。专注大数据挖掘与机器学习

  • 博客(15)
  • 资源 (2)
  • 收藏
  • 关注

原创 scala控制结构:条件表达式与循环

今天带大家一起过一遍scala语言的基础知识,涵盖if条件表达式、for循环与while循环。if条件表达式Scala IF...ELSE 语句是通过一条或多条语句的执行结果(True或...

2020-04-22 21:00:43 351

原创 scala语言基础:变量声明 基本数据类型 Range和文件读取

今天带大家一起过一遍scala语言的基础知识,涵盖变量声明、基本数据类型、Range使用和文件读取。val变量与var变量Scala有两种类型的变量,一种是val,是不可变的,在声明时就...

2020-04-17 21:00:00 641

转载 强推Markdown神器,一秒钟拯救微信公众号排版

我一直觉得微信公众号是最难用的文章编辑器,直到我开始写知乎专栏。作为两个UGC内容为主的产品,用户体验如此之差真的大大降低了写作者的创作欲望。基于这个痛点,滋养了一大批像365编辑器、壹伴、秀米等第三方微信图文排版编辑工具,但是页面杂乱繁复,模版花里胡哨,还要忍受粘贴后样式全乱的崩溃感。有一天偶然在github上发现了lyric大神的微信公众号排版编辑器项目,可以直接将Markdown格式...

2020-04-17 17:08:55 1748

原创 淡黄的长裙,蓬松的头发,Scala是个啥?干啥得靠它

笔者今天开始记录一下Scala语言的基础学习。Scala语言一般很少独立使用,而是作为在大数据领域的开发语言,是Spark的底层语言,也是Spark的首选调用语言。Scala简介 ...

2020-04-08 21:00:00 405 1

原创 妈妈再也不用担心双系统安装了!(最详细!附镜像资源+分区详解+实测教程)

ubuntu又出新版本了~附上19.10双系统安装教程,一文解决资源、分区和安装问题!一、制作ubuntu启动盘1.下载ubuntu19.10首先我们通过链接https...

2020-04-04 20:59:10 1690

原创 Spark机器学习不想跟你说话并向你扔了一个kaggle小例子

在前文中分别就Spark机器学习中的各个模块进行逐个描述,本文将Kaggle中Flights and Airports Data数据集作为研究对象,使用Spark对其进行简单的pipl...

2020-04-02 21:00:00 610

转载 一文带你get七种常用特征工程方案

当在做数据挖掘和数据分析时,数据是所有问题的基础,并且会影响整个工程的流程。相比一些复杂的算法,如何灵活的处理好数据经常会取到意想不到的效益。而处理数据不可或缺的需要使用到特征工程。目录一、什么是特征工程二、常用方法1. 时间戳处理2. 分解类别属性3.分箱/分区4. 交叉特征5. 特征选择6. 特征缩放7. 特征提取一、什么是特征工程简单的说,...

2020-04-02 11:19:24 750

转载 用python分析1225万条淘宝数据,终于搞清楚了我的交易行为

1、项目背景与分析说明1)项目背景  网购已经成为人们生活不可或缺的一部分,本次项目基于淘宝app平台数据,通过相关指标对用户行为进行分析,从而探索用户相关行为模式。2)数据和字段说明...

2020-04-01 21:00:00 818 1

原创 Spark分布式机器学习源码分析:模型评估指标

Spark是一个极为优秀的大数据框架,在大数据批处理上基本无人能敌,流处理上也有一席之地,机器学习则是当前正火热AI人工智能的驱动引擎,在大数据场景下如何发挥AI技术成为优秀的大数据...

2020-04-01 21:00:00 1003

原创 牛客SQL题解 - 获取当前薪水第二多的员工的emp_no以及其对应的薪水salary,不准使用order by

题目描述查找当前薪水(to_date='9999-01-01')排名第二多的员工编号emp_no、薪水salary、last_name以及first_name,不准使用order byCREATE TABLE `employees` (`emp_no` int(11) NOT NULL,`birth_date` date NOT NULL,`first_name` varchar(14...

2020-04-01 12:11:45 543

原创 牛客SQL题解 - 获取当前薪水第二多的员工的emp_no以及其对应的薪水salary

题目描述获取当前(to_date='9999-01-01')薪水第二多的员工的emp_no以及其对应的薪水salaryCREATE TABLE `salaries` (`emp_no` int(11) NOT NULL,`salary` int(11) NOT NULL,`from_date` date NOT NULL,`to_date` date NOT NULL,PRIMAR...

2020-04-01 12:08:42 553

原创 牛客SQL题解 - 统计出当前各个title类型对应的员工当前薪水对应的平均工资

题目描述统计出当前各个title类型对应的员工当前(to_date='9999-01-01')薪水对应的平均工资。结果给出title以及平均工资avg。CREATE TABLE `salaries` (`emp_no` int(11) NOT NULL,`salary` int(11) NOT NULL,`from_date` date NOT NULL,`to_date` date...

2020-04-01 12:06:25 361

原创 Spark MLlib分布式机器学习源码分析:频繁模式挖掘

Spark是一个极为优秀的大数据框架,在大数据批处理上基本无人能敌,流处理上也有一席之地,机器学习则是当前正火热AI人工智能的驱动引擎,在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能。本文结合机器学习思想与Spark框架代码结构来实现分布式机器学习过程,希望与大家一起学习进步~目录1.FP增长算法2.FP示例3.关联规则4.序列模式挖掘本...

2020-04-01 10:37:25 565

原创 Spark MLlib分布式机器学习源码分析:特征提取与转换

Spark是一个极为优秀的大数据框架,在大数据批处理上基本无人能敌,流处理上也有一席之地,机器学习则是当前正火热AI人工智能的驱动引擎,在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能。本文结合机器学习思想与Spark框架代码结构来实现分布式机器学习过程,希望与大家一起学习进步~本文采用的组件版本为:Ubuntu 19.10、Jdk 1.8.0_241、Scala...

2020-04-01 10:33:54 736

原创 Spark MLlib分布式机器学习源码分析:奇异值分解(SVD)与主成分分析(PCA)

原理 Spark是一个极为优秀的大数据框架,在大数据批处理上基本无人能敌,流处理上也有一席之地,机器学习则是当前正火热AI人工智能的驱动引擎,在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能。本文结合机器学习思想与Spark框架代码结构来实现分布式机器学习过程,希望与大家一起学习进步~本文采用的组件版本为:Ubuntu 19.10、Jdk 1.8.0_241、...

2020-04-01 10:30:21 1240

Python极详细思维导图PDF高清合辑

Python学习路线,各行业薪资调研,Python语言超十图吐血整理合辑,涵盖Python各类学习方向重点及Python语言核心基础讲解! 具体包含语言基础、数据类型、条件&循环、函数&模块、面向对象编程、文件对象、异常处理等等全部高细节内容

2023-03-12

《Python数据结构与算法》教程及代码

Python数据结构与算法教程及代码吐血整理! 算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。 数据结构(Data Structures):是计算机存储和组织数据的一种方式,可以用来高效地处理数据。 举个例子:二分查找就是一个非常经典的算法,而二分查找经常需要作用在一个有序数组上。这里二分就是一种折半的算法思想, 而数组是我们最常用的一种数据结构,支持根据下标快速访问。很多算法需要特定的数据结构来实现,所以经常把它们放到一块讲。 实际上,在真正的项目开发中,大部分时间都是 从数据库取数据 -> 数据操作和结构化 -> 返回给前端,在数据操作过程中需要合理地抽象, 组织、处理数据,如果选用了错误的数据结构,就会造成代码运行低效。这也是我们需要学习算法和数据结构的原因。 本资源从深层原理入手,包含丰富实例100+,深入浅出展现面试所需知识点及考题和答案,同学们自主选择。

2020-02-26

COURSERA机器学习课笔记

COURSERA机器学习课笔记,非常全面 !可配合coursera视频一起用~特别棒的资料

2018-01-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除