2020年02月_大数据之眸

原创【剑指Offer】8.跳台阶（Python实现）

题目描述一只青蛙一次可以跳上1级台阶，也可以跳上2级。求该青蛙跳上一个n级的台阶总共有多少种跳法（先后次序不同算不同的结果）。解法一：循环法# -*- coding:utf-8 -*-class Solution: def jumpFloor(self, number): # write code here a,b = 0,1 ...

2020-02-29 18:13:21 193

原创【剑指Offer】7.斐波那契数列（Python实现）

题目描述大家都知道斐波那契数列，现在要求输入一个整数n，请你输出斐波那契数列的第n项（从0开始，第0项为0）。n<=39解法一：循环法# -*- coding:utf-8 -*-class Solution: def Fibonacci(self, n): # write code here a,b = 0,1 fo...

2020-02-29 17:46:58 285

原创 Python数据结构与算法：基础知识全面讲解

注：博主今天开始更新数据结构与算法，使用Python语言实现，涉及基本数据结构、十大排序算法、递归分治、贪心动归等，意在帮大家更加容易的学习数据结构与算法以及进一步梳理这些知识点。目录一、什么是数据结构1.数据的逻辑结构2.数据的物理结构二、什么是算法1.算法的定义2.算法的特性3.算法设计的要求一、什么是数据结构数据结构是一门研究非数值计算的程序设计问...

2020-02-29 14:58:51 2895

原创【剑指Offer】6.旋转数组的最小数字（Python实现）

题目描述把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个非递减排序的数组的一个旋转，输出旋转数组的最小元素。例如数组{3,4,5,1,2}为{1,2,3,4,5}的一个旋转，该数组的最小值为1。NOTE：给出的所有元素都大于0，若数组大小为0，请返回0。解法一：min函数# -*- coding:utf-8 -*-class Solution: ...

2020-02-29 13:09:05 287

原创【剑指Offer】5.用两个栈实现队列（Python实现）

题目描述用两个栈来实现一个队列，完成队列的Push和Pop操作。队列中的元素为int类型。解法一：互助法# -*- coding:utf-8 -*-class Solution: def __init__(self): self.stack1 = [] self.stack2 = [] def push(self, node): ...

2020-02-29 13:04:15 163

原创【剑指Offer】4.重建二叉树（Python实现）

题目描述输入某二叉树的前序遍历和中序遍历的结果，请重建出该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7,2,1,5,3,8,6}，则重建二叉树并返回。解法一：递归法# -*- coding:utf-8 -*-# class TreeNode:# def __init__(self...

2020-02-29 12:49:05 198

原创【剑指Offer】3.从尾到头打印链表（Python实现）

题目描述输入一个链表，按链表从尾到头的顺序返回一个ArrayList。解法一：栈方法# -*- coding:utf-8 -*-# class ListNode:# def __init__(self, x):# self.val = x# self.next = Noneclass Solution: # 返回从尾部到头部...

2020-02-29 12:47:25 246

原创 linux系统中登录深澜有线校园网方法（不用下载客户端）

1.打开控制中心2.选择网络3.选择DSL4.创建PPPoE5.填用户名密码6.点击保存7.再点击你创建的这个连接就行了注：1.本系统为deepin系统，其它linux发行版类似设置2.若在一次开机运行时创建了多个PPPOE，可能出现反复重连的情况，重启系统就OK了

2020-02-28 16:35:18 15637 3

原创 Python数据科学基础系列

注：本人编译环境是win10 + python 3.7（IDE是JetBrains家的pycharm）一、Python简介 Python 是由 Guido van Rossum 在八十年代末和九十年代初，在荷兰国家数学和计算机科学研究所设计出来的。 Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 Python 的设计具有很强的可...

2020-02-28 15:40:59 847

原创 Spark大数据分布式图计算处理实战

前言 Spark是一种大规模、快速计算的集群平台，本公众号试图通过学习Spark官网的实战演练笔记提升笔者实操能力以及展现Spark的精彩之处。有关框架介绍和环境配置可以参考以下内容：大数据处理框架Hadoop、Spark介绍 linux下Hadoop安装与环境配置 linux下Spark安装与环境配置本文的参考配置为：Deep...

2020-02-28 15:32:05 2590

原创 Spark大数据分布式处理实战笔记（六）：Spark GraphX

前言 Spark是一种大规模、快速计算的集群平台，本公众号试图通过学习Spark官网的实战演练笔记提升笔者实操能力以及展现Spark的精彩之处。有...

2020-02-28 15:26:01 592

原创【剑指Offer】2.替换空格（Python实现）

题目描述请实现一个函数，将一个字符串中的每个空格替换成“%20”。例如，当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy。解法一：replace函数# -*- coding:utf-8 -*-class Solution: # s 源字符串 def replaceSpace(self, s): # writ...

2020-02-28 10:45:28 219

原创【剑指Offer】1.二维数组中的查找（Java && Python）

题目描述在一个二维数组中（每个一维数组的长度相同），每一行都按照从左到右递增的顺序排序，每一列都按照从上到下递增的顺序排序。请完成一个函数，输入这样的一个二维数组和一个整数，判断数组中是否含有该整数。解法一：穷举法# -*- coding:utf-8 -*-class Solution: # array 二维列表 def Find(self, target, ar...

2020-02-28 10:42:30 266

原创 Python数据科学基础（七）：文件处理

文件处理 1.文件操作三步走：打开、读写、关闭。open(file, mode='r', buffering=-1,encoding=None, errors=None,newline=None, closefd=True, opener=None) file参数指定了被打开的文件名称。 mode参数指定了打开文件后的处理方式。 enco...

2020-02-27 12:06:30 679 2

原创 Python数据科学基础（六）：字符串

一、字符串编码格式简介 ASCII码采用1个字节来对字符进行编码，仅对10个数字、26个大写英文字母、26个小写英文字母及一些其他符号进行了编码。 GB2312是我国制定的中文编码，使用1个字节表示英语，2个字节表示中文；GBK是GB2312的扩充，而CP936是微软在GBK基础上开发的编码方式。GB2312、GBK和CP936都是使用2个字节表示中文。 UTF-8对全世...

2020-02-27 12:05:45 430

原创 Python数据科学基础（五）：函数和模块

一、函数1.定义函数规则函数代码块以def 函数名(参数):开头；接下来第一行可写注释存放函数说明。函数内容以冒号开始，缩进（缩进用tab键或四个空格，推荐前者） return [表达式]结束函数，选择性的返回一个函数，return后不带表达式则返回None 给出示例，输入：def primenumber(a): ...

2020-02-27 12:04:01 261

原创 Python数据科学基础（四）：迭代器和生成器

一、迭代器迭代器可以记住便遍历的位置的对象，是python最强大的功能之一。迭代器有两基本方法：iter()和next()。给出相应示例，输入：import sys # 引入 sys 模块classmates = ['Joe','phenix','Michael','Ariel','Ashlee','Anika','Marie','Linda','Jenson']iterat...

2020-02-27 12:03:08 241

原创 Python数据科学基础（三）：条件控制和循环语句

一、条件控制 Python的条件语句是通过一条或多条语句的执行结果（True或者False）来决定执行的代码块（如下示例）。输入：import random #导入random随机数模块x = random.randint(1, 100) #x为1-100间任意随机数y = random.randint(1, 100) #y为1-100间任意随机数if x ...

2020-02-27 12:02:16 232

原创 Python数据科学基础（二）：六大数据类型

一、Number（数字）python3 支持int（整型）、float（浮点型）、bool（布尔）、complex（复数），一个例子搞定。输入：a,b,c,d = 5,2.1,True,4+3jprint('a的类型为：',type(a)) #type()函数提供括号内数据类型print('b的类型为：',type(b))print('c的类型为：',type(c))print...

2020-02-27 12:01:07 335

原创 Python数据科学基础（一）：运算符

一、算数运算符算数运算符即加减乘除一类，用于数学计算，示例如下。输入：a = 5b = 2c = 0 #依次给a,b,c赋值print('c = ',c) #输出cc = a + b #加print('c\' = ',c)c = a * b #乘print('c\'\' = ',c)c = a % b #余数print('c\'\'\'=',c...

2020-02-27 11:59:52 2558

原创 Spark大数据分布式机器学习处理实战

前言 Spark是一种大规模、快速计算的集群平台，本公众号试图通过学习Spark官网的实战演练笔记提升笔者实操能力以及展现Spark的精彩之处。有关框架介绍和环境配置可以参考以下内容：大数据处理框架Hadoop、Spark介绍 linux下Hadoop安装与环境配置 linux下Spark安装与环境配置本文的参考配置为：Deepi...

2020-02-26 20:58:52 3678 2

原创 Spark大数据分布式处理实战笔记（五）：Spark MLlib

前言 Spark是一种大规模、快速计算的集群平台，本公众号试图通过学习Spark官网的实战演练笔记提升笔者实操能力以及展现Spark的精彩之处。有...

2020-02-26 20:48:39 872

原创 linux下Spark安装与环境配置

Hadoop测试：按照上一篇文章安装完Hadoop集群之后，启动hdfs文件系统及yarn资源管理器（也可通过start-dfs.sh和start-yarn.sh完成）：start-all.sh之后通过jps查看是否成功：jps成功之后如下图：点击链接https://www.scala-lang.org/download/2.12.1...

2020-02-26 12:41:22 8204

原创 linux下Hadoop安装与环境配置

注：本文采用的Linux环境为deepin 15.11系统（是由武汉深之度科技有限公司开发的颜值极高的Linux发行版），以下命令经测试Ubuntu18.04版本同样适用。linux安装可采用虚拟机安装、单系统安装、双系统安装等多种方式，自行百度。在linux下首先更新apt包：sudoapt-getupdate安装SSH server：sudo ...

2020-02-26 12:40:28 3114 4

原创大数据处理框架Hadoop、Spark介绍

一、Hadoop简介 Hadoop是由java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce。HDFS是一个分布式文件系统：引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode，对数据进行分布式储存和读取。 MapReduce是一个计算框架：MapReduce的...

2020-02-26 12:39:00 2207

原创 Spark大数据分布式处理实战笔记（四）：Spark Streaming

前言 Spark是一种大规模、快速计算的集群平台，本公众号试图通过学习Spark官网的实战演练笔记提升笔者实操能力以及展现Spark的精彩之处。有关框架介绍和环境配置可以参考以下内容：1.大数据处理框架Hadoop、Spark介绍 2.linux下Hadoop安装与环境配置 3.linux下Spark安装与环境配置本文的参考配置为：Deep...

2020-02-25 18:01:45 848

原创 Spark大数据分布式处理实战笔记（三）：Spark SQL

前言 Spark是一种大规模、快速计算的集群平台，本公众号试图通过学习Spark官网的实战演练笔记提升笔者实操能力以及展现Spark的精彩之处。有关框架介绍和环境配置可以参考以下内容：1.大数据处理框架Hadoop、Spark介绍 2.linux下Hadoop安装与环境配置 3.linux下Spark安装与环境配置本文的参考配置为：Dee...

2020-02-24 22:36:31 767

原创 Spark大数据分布式处理实战笔记（二）：RDD、共享变量

前言 Spark是一种大规模、快速计算的集群平台，本公众号试图通过学习Spark官网的实战演练笔记提升笔者实操能力以及展现Spark的精彩之处。有关框架介绍和环境配置可以参考以下内容：1.大数据处理框架Hadoop、Spark介绍 2.linux下Hadoop安装与环境配置 3.linux下Spark安装与环境配置本文的参考配置为：Dee...

2020-02-22 19:15:40 952

原创 Spark大数据分布式处理实战笔记（一）：快速开始

前言 Spark是一种大规模、快速计算的集群平台，本公众号试图通过学习Spark官网的实战演练笔记提升笔者实操能力以及展现Spark的精彩之处。有关框架介绍和环境配置可以参考以下内容：1.大数据处理框架Hadoop、Spark介绍 2.linux下Hadoop安装与环境配置 3.linux下Spark安装与环境配置本文的参考配置为：Deepi...

2020-02-22 12:12:17 1218

原创 “高频面经”之总结篇：最全大数据+AI方向100问

2020-02-21 19:51:25 569

原创 2020 BAT大厂深度学习算法面试经验：“高频面经”之深度学习篇

注：深度学习同机器学习相似，注重原理理解、算法对比及多场景实战，同时知识迭代更加迅速，相对于机器学习更加前沿。以下试题为作者日常整理的通用高频面经，包含题目，答案与参考文章，欢迎纠正与补充。____目录1.反向传播主要思想及推导2.简要概述HMM、CRF、EM、GMM3.衡量分类器好坏指标4.正负样本不平衡的解决办法5.常用激活函数6.Te...

2020-02-19 19:11:25 4859

原创 2020 BAT大厂机器学习算法面试经验：“高频面经”之机器学习篇

注：机器学习注重原理理解、算法对比及场景使用，应加强算法公式推导及多场景实战。以下试题为作者日常整理的通用高频面经，包含题目，答案与参考文章，欢迎纠正与补充。更多内容尽在公众号：目录1.常见分类算法及应用场景2.逻辑回归推导3.SVM相关问题4.核函数使用5.生成模型和判别模型基本形式6.ID3,C4.5和CART区别7.交叉熵公式原理8....

2020-02-19 19:09:36 3826

原创 “高频面经”之深度学习篇

注：深度学习同机器学习相似，注重原理理解、算法对比及多场景实战，同时知识迭代更加迅速，相对于机器学习更加前沿。以下试题为作者日常整理的通用高频面...

2020-02-19 17:47:58 1865

原创 “高频面经”之机器学习篇

注：机器学习注重原理理解、算法对比及场景使用，应加强算法公式推导及多场景实战。以下试题为作者日常整理的通用高频面经，包含题目，答案与参考文章，欢...

2020-02-18 19:16:21 1407

原创 2020 BAT大厂数据开发面试经验：“高频面经”之大数据研发篇

注：数据研发侧重组件框架原理和编程实践经验，在面试中也会问到数据结构与算法、机器学习算法等。以下试题为作者日常整理的通用高频面经，包含题目，答案与参考文章，欢迎纠正与补充。____目录1.linux常用命令2.Java虚拟机、垃圾回收机制3.TCP “三次握手”、 “四次挥手4.大数据常见组件5.HDFS存储机制6.MapReduce基本流程...

2020-02-16 14:44:10 3772

原创 2020 BAT大厂数据挖掘面试经验：“高频面经”之数据结构与算法篇

注：数据结构与算法为面试基础，基本上所有岗位都有涉及，面试中侧重核心思路阐述和手撕代码。以下试题为作者日常整理的通用高频面经，包含题目，答案与参考文章，欢迎纠正与补充。____目录1.什么是链表、队列、堆栈、树图？2.删除链表中重复的节点（剑指offer 83）3.两数相加（Leetcode 2）4.反转链表、环形链表、合并链表5.创建包含mi...

2020-02-16 14:41:25 2925

原创 “高频面经”之大数据研发篇

注：数据研发侧重组件框架原理和编程实践经验，在面试中也会涉及到数据结构与算法、机器学习算法等。以下试题为作者日常整理的通用高频面经，包含题目，答...

2020-02-16 13:44:04 485

原创 “高频面经”之数据结构与算法篇

注：数据结构与算法为面试基础，基本上所有岗位都有涉及，面试中侧重核心思路阐述和手撕代码。以下试题为作者日常整理的通用高频面经，包含题目，答案与参...

2020-02-14 19:40:05 2264

原创 2020 BAT大厂数据分析面试经验：“高频面经”之数据分析篇

注：数据分析主要侧重产品sence与Hive使用，也会有少量数据结构、大数据架构与算法相关内容（会放至其它相应篇中）。以下试题为作者面试过程中被经常问到以及日常整理的通用高频面经，包含题目，答案与参考文章，欢迎纠正与补充。目录1.Mysql中索引是什么？建立索引的目的？2.sql语句执行顺序？3.数据库与数据仓库的区别?4.OLTP和OLAP的区别？5.行存储...

2020-02-13 21:11:40 6792 2

原创 “高频面经”之数据分析篇

数据分析主要侧重产品sence与Hive使用，也会有少量数据结构、大数据架构与算法相关内容。以下试题为日常整理的通用高频面经，包含题目，答案与参考文章，欢迎纠正与补充。

2020-02-13 19:45:38 1796 1

Python极详细思维导图PDF高清合辑

《Python数据结构与算法》教程及代码

COURSERA机器学习课笔记

空空如也