整理常见的数据结构和算法知识点

数据结构: 链表 数组 二叉树 树 堆(大顶堆、小顶堆) 栈 队列 向量 hash表 算法: 广度(深度)优先搜索 递归 二分法查找 排序 树的插入/删除/查找/遍历 图论 hash法 分治法 动态规划 其他: 位操作 设计模式 内存管理(堆栈) 《计算机程序设计艺术》好好好

2017-10-30 11:38:01

阅读数 748

评论数 0

Repartition Join在Spark的缺点(简版)

100-300G/表,节点10x3核2.7GHz,1.6版,centos6 问题: 1.需要在查询时对参与两表连接的数据进行动态的重划分,网络和内存开销都很大,宽表的情况下,结构化数据中事实表和维度表i的数据通信量较大造成实时性差。 2.通过哈希函数划分到同一节点的很多事实表元组在外键上具有...

2017-10-13 12:31:07

阅读数 305

评论数 0

kafka 问题

1.  http://blog.csdn.net/qq_19427739/article/details/51095463 java编译中出现了Exception in thread “main” java.lang.UnsupportedClassVersionError 起因:...

2017-07-06 17:14:38

阅读数 1037

评论数 0

ubuntu/var/log/下各个日志文件

/var/log/alternatives.log-更新替代信息都记录在这个文件中 /var/log/apport.log -应用程序崩溃记录 /var/log/apt/   -用apt-get安装卸载软件的信息 /var/log/auth.log  -登录认证log /v...

2017-07-02 18:42:19

阅读数 1566

评论数 0

[spark论文翻译] RDD:基于内存的集群计算容错抽象

[spark论文翻译] RDD:基于内存的集群计算容错抽象 分类: 大数据之spark  |  标签: hadoop集群,云计算,数据分析,大数据,spark  |  作者: enoch520 相关  |  发布日期 : 2014-11-07  |  热度 : 855° ...

2017-06-27 11:41:44

阅读数 764

评论数 0

Python: import numpy 报错

实际上是numpy未成功安装 pip install numpy 报错  pkg_resources.DistributionNotFound: The 'pip==1.5.4' distribution was not found 安装 pip 报错 pkg_resources.Distr...

2017-06-23 20:32:00

阅读数 922

评论数 0

centos 6.9 升级python 2.6.6 至 3.5.0

1、下载python3.5 wget https://www.python.org/ftp/python/3.5.0/Python-3.5.0.tgz 解压 tar zxvf Python-3.5.0.tgz 进入目录 cd Python-3.5.0 配置 ./config...

2017-06-23 18:48:34

阅读数 1593

评论数 0

selvet的生命周期

Servlet生命周期分为三个阶段:   1,初始化阶段  调用init()方法   2,响应客户请求阶段  调用service()方法   3,终止阶段  调用destroy()方法 Servlet初始化阶段:   在下列时刻Servlet容器装载Servlet:     1,S...

2017-06-22 21:09:06

阅读数 344

评论数 0

Hash (一)

Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所以不可能从散列值来唯一的...

2017-06-22 11:29:38

阅读数 293

评论数 0

tensorflow-03

2017-06-20 22:41:39

阅读数 117

评论数 0

tensorflow-02

2017-06-20 21:29:59

阅读数 110

评论数 0

Linux启动过程详解

启动第一步--加载BIOS 当你打开计算机电源,计算机会首先加载BIOS信息,BIOS信息是如此的重要,以至于计算机必须在最开始就找到它。这是因为BIOS中包含了CPU的相关信息、设备启动顺序信息、硬盘信息、内存信息、时钟信息、PnP特性等等。在此之后,计算机心里就有谱了,知道应该去读取哪个硬件...

2017-06-20 15:27:33

阅读数 93

评论数 0

计算机是如何启动的

http://www.ruanyifeng.com/blog/2013/02/booting.html http://blog.csdn.net/langeldep/article/details/8788119 零、boot的含义 先问一个问题,”启动”用英语怎么说...

2017-06-20 15:11:35

阅读数 209

评论数 0

hive(二)

Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的。 https://cwiki.apache.org/confluence/display/Hive/Home The Apache Hive data warehouse software...

2017-06-20 13:15:20

阅读数 286

评论数 0

hive(一)

数据库: 数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。 简单来说是本身可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、截取、更新、删除等操作。 严格来说,数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据...

2017-06-20 12:45:48

阅读数 439

评论数 0

每日算法(二)

KMeans-K均值算法 点击打开链接 k-means算法,也被称为k-平均或k-均值,是一种得到最广泛使用的聚类算法。它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类...

2017-06-19 20:39:39

阅读数 229

评论数 0

scala中的val 和 var

1.val 2.var

2017-06-19 20:36:15

阅读数 243

评论数 0

每日算法(一)

Apriori-关联规则挖掘算法: Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。 关于这个算法有一个非常有名的故事:"尿布和啤酒"。故事是这样的:美国的妇女们经常会嘱咐她们的丈夫下班后为孩子买尿...

2017-06-18 22:05:38

阅读数 195

评论数 0

Intellij IDEA 快捷键

Ctrl+Alt+s       :   settings Ctrl+Alt+L       :  格式化代码 Alt +Enter       :  导入包 Keymap --> Main menu --> Code -->Completion  --> Basic

2017-06-18 18:58:01

阅读数 121

评论数 0

linux 的一些命令

cat  /etc/issue    :      查看当前centos版本

2017-06-17 21:15:14

阅读数 172

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭