「已注销」-CSDN博客

原创整理常见的数据结构和算法知识点

数据结构：链表数组二叉树树堆（大顶堆、小顶堆）栈队列向量hash表算法：广度（深度）优先搜索递归二分法查找排序树的插入/删除/查找/遍历图论hash法分治法动态规划其他：位操作设计模式内存管理（堆栈）《计算机程序设计艺术》好好好

2017-10-30 11:38:01 1406

原创 Repartition Join在Spark的缺点（简版）

100-300G/表，节点10x3核2.7GHz，1.6版，centos6问题：1.需要在查询时对参与两表连接的数据进行动态的重划分，网络和内存开销都很大，宽表的情况下，结构化数据中事实表和维度表i的数据通信量较大造成实时性差。2.通过哈希函数划分到同一节点的很多事实表元组在外键上具有相同的值，CPU和内存消耗量较大。解决：1.事实表去重，数据块粒度的去重2.设置并行度，一

2017-10-13 12:31:07 1080

原创 kafka 问题

1. http://blog.csdn.net/qq_19427739/article/details/51095463java编译中出现了Exception in thread “main” java.lang.UnsupportedClassVersionError起因： StringBuilder不能赋值？不对，错误原因是因为下面报错的log：

2017-07-06 17:14:38 2124

转载 ubuntu/var/log/下各个日志文件

/var/log/alternatives.log-更新替代信息都记录在这个文件中/var/log/apport.log -应用程序崩溃记录/var/log/apt/ -用apt-get安装卸载软件的信息/var/log/auth.log -登录认证log/var/log/boot.log -包含系统启动时的日志。/var/log/btmp -记录

2017-07-02 18:42:19 3296

转载 [spark论文翻译] RDD：基于内存的集群计算容错抽象

[spark论文翻译] RDD：基于内存的集群计算容错抽象分类：大数据之spark | 标签: hadoop集群,云计算,数据分析,大数据,spark | 作者： enoch520 相关 | 发布日期 : 2014-11-07 | 热度 : 855°目录[+]该论文来自Berkeley实验室，英文标题为：Resi

2017-06-27 11:41:44 1396

原创 Python: import numpy 报错

实际上是numpy未成功安装pip install numpy报错 pkg_resources.DistributionNotFound: The 'pip==1.5.4' distribution was not found安装 pip 报错 pkg_resources.DistributionNotFound: distribute==0.6.10安装distribu

2017-06-23 20:32:00 4980

原创 centos 6.9 升级python 2.6.6 至 3.5.0

1、下载python3.5wget https://www.python.org/ftp/python/3.5.0/Python-3.5.0.tgz解压 tar zxvf Python-3.5.0.tgz进入目录 cd Python-3.5.0配置 ./configure --prefix=/usr/local/python3.5编译 make安装

2017-06-23 18:48:34 1933

转载 selvet的生命周期

Servlet生命周期分为三个阶段：　　1，初始化阶段调用init()方法　　2，响应客户请求阶段　　调用service()方法　　3，终止阶段　　调用destroy()方法Servlet初始化阶段：　　在下列时刻Servlet容器装载Servlet：　　　　1，Servlet容器启动时自动装载某些Servlet，实现它只需要在web.X

2017-06-22 21:09:06 917

原创 Hash (一)

Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入（又叫做预映射， pre-image），通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。www.baik

2017-06-22 11:29:38 501

原创 tensorflow-03

2017-06-20 22:41:39 216

原创 tensorflow-02

2017-06-20 21:29:59 229

转载 Linux启动过程详解

启动第一步－－加载BIOS当你打开计算机电源，计算机会首先加载BIOS信息，BIOS信息是如此的重要，以至于计算机必须在最开始就找到它。这是因为BIOS中包含了CPU的相关信息、设备启动顺序信息、硬盘信息、内存信息、时钟信息、PnP特性等等。在此之后，计算机心里就有谱了，知道应该去读取哪个硬件设备了。启动第二步－－读取MBR众所周知，硬盘上第0磁道第一个扇区被称为MBR，也就是Ma

2017-06-20 15:27:33 191

转载计算机是如何启动的

http://www.ruanyifeng.com/blog/2013/02/booting.htmlhttp://blog.csdn.net/langeldep/article/details/8788119零、boot的含义先问一个问题，”启动”用英语怎么说？回答是boot。可是，boot原来的意思是靴子，”启动”与靴子有什么关系呢？原来，这里的boo

2017-06-20 15:11:35 468

原创 hive(二)

Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的。https://cwiki.apache.org/confluence/display/Hive/HomeThe Apache Hive data warehouse software facilitates querying and managing large datasets

2017-06-20 13:15:20 542

原创 hive（一）

数据库：数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。简单来说是本身可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据进行新增、截取、更新、删除等操作。严格来说，数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独

2017-06-20 12:45:48 692

转载每日算法（二）

KMeans-K均值算法点击打开链接k-means算法，也被称为k-平均或k-均值，是一种得到最广泛使用的聚类算法。它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点，算法的主要思想是通过迭代过程把数据集划分为不同的类别，使得评价聚类性能的准则函数达到最优，从而使生成的每个聚类内紧凑，类间独立。这一算法不适合处理离散型属性，但是对连续型具有较好的聚类效果K-MEANS算法是

2017-06-19 20:39:39 502

原创 scala中的val 和 var

1.val2.var

2017-06-19 20:36:15 446

转载每日算法（一）

Apriori-关联规则挖掘算法：Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。关于这个算法有一个非常有名的故事："尿布和啤酒"。故事是这样的：美国的妇女们经常会嘱咐她们的丈夫下班后为孩子买尿布，而丈夫在买完尿布后又要顺手买回自己爱喝的啤酒，因此啤酒和尿布在一起被购买的机会很多。这个举措使尿布和啤酒的

2017-06-18 22:05:38 567

原创 Intellij IDEA 快捷键

Ctrl+Alt+s : settingsCtrl+Alt+L : 格式化代码Alt +Enter : 导入包Keymap --> Main menu --> Code -->Completion --> Basic

2017-06-18 18:58:01 222

原创 linux 的一些命令

cat /etc/issue : 查看当前centos版本

2017-06-17 21:15:14 392

原创 Hadoop之HDFS(三)

rpc

2017-06-17 18:16:17 404

原创 Hadoop之HDFS(二)

namenode::也称元数据节点其将所有的文件和文件夹的元数据保存在一个文件系统树中。这些信息也会在硬盘上保存成以下文件：命名空间镜像(namespace image)及修改日志(edit log)其还保存了一个文件包括哪些数据块，分布在哪些数据节点上。然而这些信息并不存储在硬盘上，而是在系统启动的时候从数据节点收集而成的。结构：{dfs.name

2017-06-17 17:18:15 271

原创 Hadoop之HDFS(一)

HDFS :Hadoop Distribute File System 的简称，Hadoop的一个分布式文件系统一，HDFS的主要设计理念1，存储超大文件：ＧＢ－ＴＢ－ＰＢ及文件２, 一次写入，多次读取（流式数据访问）：HDFS存储的数据集作为hadoop的分析对象。在数据集生成后，长时间在此数据集上进行各种分析。每次分析都将设计该数据集的大部分数据甚至全部数据，因此读取整个数据集

2017-06-17 16:18:34 378

原创 RAID 5 (分布式奇偶校验的独立磁盘结构)

RAID 5 是一种存储性能、数据安全和存储成本兼顾的存储解决方案。 RAID 5可以理解为是RAID 0和RAID 1的折中方案。RAID 5可以为系统提供数据安全保障，但保障程度要比Mirror低而磁盘空间利用率要比Mirror高。RAID 5具有和RAID 0相近似的数据读取速度，只是多了一个奇偶校验信息，写入数据的速度比对单个磁盘进行写入操作稍慢。同时由于多个数据对应一个奇偶校验信

2017-06-17 15:21:31 15910 1

原创英语标点符号及翻译

http://blog.chinaunix.net/u/20725/showart_296963.html+　 plus　加号；正号-　 minus　减号；负号±　plus or minus　正负号×　is multiplied by　乘号÷　is divided by　除号＝　is equal to　等于号≠　is not equal to　不等于号≡　is

2017-06-17 13:51:54 320

原创笛卡尔积，支持向量机，图灵完全，边缘计算的概念

笛卡尔乘积是指在数学中，两个集合X和Y的笛卡尓积（Cartesian product），又称直积，表示为X × Y，第一个对象是X的成员而第二个对象是Y的所有可能有序对的其中一个成员。假设集合A={a, b}，集合B={0, 1, 2}，则两个集合的笛卡尔积为{(a, 0), (a, 1), (a, 2), (b, 0), (b, 1), (b, 2)}。笛卡尔积是关系代数里的概念

2017-06-15 21:15:17 691

原创杂记----有道词典更新

2017-06-13 17:45:55 309

原创 MD5 校验和（checksum）

MD5 校验和（checksum）通过对接收的传输数据执行散列运算来检查数据的正确性。一个散列函数，比如 MD5，是一个将任意长度的数据字符串转化成短的固定长度的值的单向操作。任意两个字符串不应有相同的散列值（即，有“很大可能”是不一样的，并且要人为地创造出来两个散列值相同的字符串应该是困难的）。一个 MD5 校验和（checksum）通过对接收的传输数据执行散列运算来检查数据

2017-06-13 14:11:17 11148

原创 Java基础语法3

方法：为了解决代码重复编写的问题，可以将代码提取出来放在一个大括号中，并为这段代码起个名字，这样在每次获取最值的地方通过这个名字来调用获取最值的代码就可以了。上述过程中，所提取出来的代码可以被看作是程序中定义的一个方法(功能)，程序在需要获取最值时调用该方法即可。方法可以简单定义为：完成特定功能的代码块函数在Java中被称为方法。格式：修饰符返回值类型方法名(参数类型参数

2017-06-12 21:32:12 215

原创 zookeeper

ZooKeeper is a centralized service for maintaining configuration information, naming, providing distributed synchronization, and providing group services. All of these kinds of services are used in

2017-06-11 12:01:27 223

原创 python）） unknown encoding: cp65001

unknown encoding: cp65001异常编码格式错误，需要将编码修改为：简体中文即：C:\>chcp 936参考：http://blog.csdn.net/shuxue051/article/details/46986759http://blog.csdn.net/hubuguia/article/details/70138684

2017-06-08 19:15:56 1751

转载 Hadoop（HDFS、YARN、HBase、Hive和Spark等）默认端口表

2017-06-08 15:56:19 977

原创 bash: yum install crontabs: command not found

2017-06-04 18:32:05 547

原创 mysql shell 查看所有用户的授权列表

mysql> select * from information_schema.user_privileges;mysql的远程登录授权mysql>grant all privileges on *.* to 'root'@'%' identified by 'root' with grant option;mysql>flush privilege

2017-06-03 15:45:33 1068

原创安装zookeeper 3.4.6 jps 有进程 status 报（Error contacting service. It is probably not running.）一个小问题绕过的圈

2017-05-24 11:57:03 750

原创 MySQL5.6 首次使用更新密码

2017-05-22 22:52:17 478

原创 SecureCRT无法正常连接Ubuntu 14.0.4的解决办法

在SercureCRT中使用root帐号连接Ubuntu14.0.4.1的时候，提示“Password Authentication Failed，Please verify that the username and password are correct.”重新输入密码，反复检查多次密码并重新输入正确的密码，还是提示同样的错误。解决：（1）安装SSH　　打开U

2017-05-18 20:59:28 783

原创 caffe: make all j4 错误：Makefile.config:95: *** missing separator. Stop.

解决方法：（两个路径之间用空格隔开，不用换行）参考：在make命令后出现这种错误提示，是提示第2行没有分隔符。例如：1 target：prerequisites2 command……改为：1 target：prerequisites2 command……就可以了。在Makef

2017-05-18 17:37:33 1844

原创如何查看 ubuntu 是 32位 or 64位？

打开终端，输入sudo uname --m 命令，按下enter如果显示i686,你安装了32位操作系统如果显示 x86_64，你安装了64位操作系统输入sudo uname --s 显示内核名字输入sudo uname --r 显示内核版本输入sudo uname --n 显示网络主机名输入sudo uname --p 显示cp

2017-05-18 09:57:44 373

原创 tensorflow-01

2017-05-18 09:34:18 201

机器学习课程讲义.zip

快学Scala习题解答

代码的未来

数据可视化基础

空空如也