sofuzi-CSDN博客

原创声明

本人转载和发表的文章大多是本人在学习过程中积累的一些问题解决办法。博客的目的只用于自己学习和大家交流，绝不作其他用途。如有侵权，请联系删除。谢谢！...

2018-03-24 11:38:47 159

版权声明：本文为博主原创文章，遵循 CC 4.0 by-sa 版权协议，转载请附上原文出处链接和本声明。本文链接：https://blog.csdn.net/kangkangwanwan/article/details/78427005ApacheKylin（麒麟）是由eBay开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据。底层存储用的是...

2019-08-17 11:03:51 528

原创 sql语句中Having与Where的区别

where 子句的作用是在对查询结果进行分组前，将不符合where条件的行去掉，即在分组之前过滤数据，where条件中不能包含聚组函数。having 子句的作用是筛选满足条件的组，即在分组之后过滤数据，条件中经常包含聚组函数。HAVING语句通常与GROUP BY语句联合使用，用来过滤由GROUP BY语句返回的记录集，弥补了WHERE关键字不能与聚合函数联合使用的不足。示例se...

2018-09-22 15:51:49 644

原创 SQL中的Group By

“Group By”从字面意义上理解就是根据“By”指定的规则对数据进行分组，所谓的分组就是将一个“数据集”划分成若干个“小区域”，然后针对若干个“小区域”进行数据处理。原始表简单Group Byselect 类别, sum(数量) as 数量之和from Agroup by 类别返回结果如下表，实际上就是分类汇总。Group By 和 Order Byse...

2018-09-22 15:45:51 3359

转载不会使用索引，导致全表扫描情况

1.使用in操作符推荐方案：在业务密集的SQL当中尽量不采用IN操作符2.使用not in推荐方案：用not exists或者（外联结+判断为空）来代替3.使用<> （不等于）操作符推荐方案：用其它相同功能的操作运算代替，如a<>0 改为 a>0 or a<04.使用IS NULL 或IS NOT NULL操作（判断字段是否为空）判断字段是否为空一般...

2018-09-21 11:26:21 1576

转载 MySql 创建索引原则

为了使索引的使用效率更高，在创建索引时，必须考虑在哪些字段上创建索引和创建什么类型的索引。本小节将向读者介绍一些索引的设计原则。 1．选择唯一性索引唯一性索引的值是唯一的，可以更快速的通过该索引来确定某条记录。例如，学生表中学号是具有唯一性的字段。为该字段建立唯一性索引可以很快的确定某个学生的信息。如果使用姓名的话，可能存在同名现象，从而降低查询速度。 2．为经常需要排序、分组和联合...

2018-09-20 22:04:27 270

转载 MySQL 创建索引、修改索引、删除索引的命令语句

查看表中已经存在 index：show index from table_name;创建和删除索引:索引的创建可以在 CREATE TABLE 语句中进行，也可以单独用 CREATE INDEX 或 ALTER TABLE 来给表增加索引。删除索引可以利用ALTER TABLE 或 DROP INDEX 语句来实现。（1）使用ALTER TABLE语句创建索引。语法如下：...

2018-09-20 22:01:10 870

转载 MySQL 索引的分类

MySQL的索引包括普通索引、唯一性索引、全文索引、单列索引、多列索引和空间索引等。本小节将详细讲解这几种索引的含义和特点。 1．普通索引在创建普通索引时，不附加任何限制条件。这类索引可以创建在任何数据类型中，其值是否唯一和非空由字段本身的完整性约束条件决定。建立索引以后，查询时可以通过索引进行查询。例如，在student表的stu_id字段上建立一个普通索引。查询记录时，就可以根据该索...

2018-09-20 21:45:16 217

转载如何为mysql建立索引

目录索引作用如何为mysql建立索引什么情况下应不建或少建索引设计MySql索引的时候有一下几点注意：索引作用在索引列上，除了有序查找之外，数据库利用各种各样的快速定位技术，能够大大提高查询效率。特别是当数据量非常大，查询涉及多个表时，使用索引往往能使查询速度加快成千上万倍。例如，有3个未索引的表t1、t2、t3，分别只包含列c1、c2、c3，每个表分别含有100...

2018-09-20 21:43:21 7352

转载 HBase——强一致性详解

转载于：https://www.cnblogs.com/captainlucky/p/4720986.htmlHbase是一个强一致性数据库，不是“最终一致性”数据库，官网给出的介绍：“Strongly consistent reads/writes: HBase is not an "eventually consistent" DataStore. This makes it very...

2018-09-15 19:04:21 871 1

转载大数据处理引擎Spark与Flink对比分析

大数据技术正飞速地发展着，催生出一代又一代快速便捷的大数据处理引擎，无论是Hadoop、Storm，还是后来的Spark、Flink。然而，毕竟没有哪一个框架可以完全支持所有的应用场景，也就说明不可能有任何一个框架可以完全取代另一个。我们将从几个项出发着重对比Spark与Flink这两个大数据处理引擎，探讨其两者的区别。　　一、Spark与Flink几个主要项目的对比与分析　　1.性...

2018-09-09 11:46:14 1895

转载最长公共子序列与最长公共子串(DP)

1. 问题描述子串应该比较好理解，至于什么是子序列，这里给出一个例子：有两个母串cnblogs belong比如序列bo, bg, lg在母串cnblogs与belong中都出现过并且出现顺序与母串保持一致，我们将其称为公共子序列。最长公共子序列（Longest Common Subsequence,LCS），顾名思义，是指在所有的子序列中最长的那一个。子串是要求更严格的一种子序列，要...

2018-09-09 10:58:54 478

转载动态规划初识（从dfs到dfs优化到动态规划顺推和逆推）

思想：动态规划是通过组合子问题来解决问题的，是用于求解包含重叠子问题的最优化问题的方法。入门题目：数字三角形题目描述：给出了一个数字三角形。从三角形的顶部到底部有很多条不同路径。对于每条路径，把路径上面的数加起来可以得到一个和，你的任务就是找到最大的和。注意：路径上的每一步只能从一个数（x,y）走到（x+1，y）或（x+1，y+1）。如：7...

2018-08-18 10:59:41 2034

原创贪心算法经典例题

2019网易提前批题小易有一些立方体，每个立方体的边长为1，他用这些立方体搭了一些塔。现在小易定义：这些塔的不稳定值为它们之中最高的塔与最低的塔的高度差。小易想让这些塔尽量稳定，所以他进行了如下操作：每次从某座塔上取下一块立方体，并把它放到另一座塔上。注意，小易不会把立方体放到它原本的那座塔上，因为他认为这样毫无意义。现在小易想要知道，他进行了不超过k次操作之后，不稳定值最小是多少。...

2018-08-14 22:22:50 2758

原创深度优先遍历经典例题

牛牛准备参加学校组织的春游, 出发前牛牛准备往背包里装入一些零食, 牛牛的背包容量为w。牛牛家里一共有n袋零食, 第i袋零食体积为v[i]。牛牛想知道在总体积不超过背包容量的情况下,他一共有多少种零食放法(总体积为0也算一种放法)。输入描述:输入包括两行第一行为两个正整数n和w(1 <= n <= 30, 1 <= w <= 2 * 10^9),表示零食的数量和...

2018-08-14 01:41:56 4872

转载并行和并发的区别与联系

转载于：https://blog.csdn.net/VIP_WangSai/article/details/72420632你吃饭吃到一半，电话来了，你一直到吃完了以后才去接，这就说明你不支持并发也不支持并行。你吃饭吃到一半，电话来了，你停了下来接了电话，接完后继续吃饭，这说明你支持并发。你吃饭吃到一半，电话来了，你一边打电话一边吃饭，这说明你支持并行。并发的关键是你有处理多个任务的...

2018-08-13 18:59:45 3262

转载数据结构---拓扑排序详解

1、拓扑排序的介绍对一个有向无环图(Directed Acyclic Graph简称DAG)G进行拓扑排序，是将G中所有顶点排成一个线性序列，使得图中任意一对顶点u和v，若边(u,v)∈E(G)，则u在线性序列中出现在v之前。拓扑排序对应施工的流程图具有特别重要的作用，它可以决定哪些子工程必须要先执行，哪些子工程要在某些工程执行后才可以执行。为了形象地反映出整个工程中各个子工程(活动)之间...

2018-08-12 16:35:33 486

转载 Java -- 深入浅出GC自动回收机制

1、GC简单的了解　　GC ：Garbage Collections 字面意思是垃圾回收器，释放垃圾占用的空间。让创建的对象不需要像c、c++那样delete、free掉。对于c、c++的开发人员来说内存是开发人员分配的，也就是说还要对内存进行维护和释放。对于Java程序员来说，一个对象的内存分配是在虚拟机的自动内存分配机制的帮助下，不再需要为每一个new操作去写配对的delete/free...

2018-08-07 17:17:50 451

转载 JVM性能调优监控工具jps、jstack、jstat、jmap、jinfo使用详解

jps查看所有的jvm进程，包括进程ID，进程启动的路径等等。我自己也用PS，即：ps -ef | grep javajstack观察jvm中当前所有线程的运行情况和线程当前状态。系统崩溃了？如果java程序崩溃生成core文件，jstack工具可以用来获得core文件的java stack和native stack的信息，从而可以轻松地知道java程序是如何崩溃和在程序何处发...

2018-08-07 11:06:39 299

转载 Hive知识汇总

两种Hive表hive存储：数据+元数据托管表（内部表）创建表：hive> create table test2(id int,name String,tel String) > ROW FORMAT DELIMITED > FIELDS TERMINATED BY ',';准备数据文件my.txt1,scc0,20,131888888...

2018-08-04 21:12:15 208

转载 MapReduce：实现join的几种方法

reduce side joinreduce side join是一种最简单的join方式，其主要思想如下：在map阶段，map函数同时读取两个文件File1和File2，为了区分两种来源的key/value数据对，对每条数据打一个标签> （tag）,比如：tag=0表示来自文件File1，tag=2表示来自文件File2。即：map阶段的主要任务是对不同文件中的数据打标签。&gt...

2018-07-28 21:08:58 12687

原创 HBase的JAVA API

package hbase;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import or...

2018-07-04 15:38:27 267

转载梯度下降法的三种形式：批量梯度下降法（BGD）、随机梯度下降法（SGD）、小批量梯度下降法（MBGD）

转载于：http://www.360doc.com/content/17/0323/08/1489589_639370019.shtml第四点略

2018-07-02 12:24:14 742

转载三种梯度下降的方式：批量梯度下降、小批量梯度下降、随机梯度下降

转载于：https://blog.csdn.net/uestc_c2_403/article/details/74910107在机器学习领域中，梯度下降的方式有三种，分别是：批量梯度下降法BGD、随机梯度下降法SGD、小批量梯度下降法MBGD，并且都有不同的优缺点。下面我们以线性回归算法（也可以是别的算法，只是损失函数（目标函数）不同而已，它们的导数的不同，做法是一模一样的）为例子来对三种梯度下降...

2018-07-02 11:55:05 2984

转载机器学习算法--逻辑回归原理介绍

转载于：https://blog.csdn.net/chibangyuxun/article/details/53148005一、逻辑回归基本概念1. 什么是逻辑回归逻辑回归就是这样的一个过程：面对一个回归或者分类问题，建立代价函数，然后通过优化方法迭代求解出最优的模型参数，然后测试验证我们这个求解的模型的好坏。Logistic回归虽然名字里带“回归”，但是它实际上是一种分类方法，主要用于两分类问...

2018-07-02 11:27:12 432

原创 100亿数据找出最大的1000个数字（top K问题）

在大规模数据处理中，经常会遇到的一类问题：在海量数据中找出出现频率最好的前k个数，或者从海量数据中找出最大的前k个数，这类问题通常被称为top K问题。例如，在搜索引擎中，统计搜索最热门的10个查询词；在歌曲库中统计下载最高的前10首歌等。1、最容易想到的方法是将数据全部排序。该方法并不高效，因为题目的目的是寻找出最大的10000个数即可，而排序却是将所有的元素都排序了，做了很多的无用功。2、局部...

2018-06-27 10:51:36 16771 8

原创 java十进制转化为二进制

十进制转化为二进制的方法Integer.toBinaryString(int i)注意：转化的二进制以字符串的形式返回查看一个数的二进制上某一位是0还是1的方法：1、屏蔽法num & (1<<index)) >> index（判断数字num的二进制上第index为是1还是0）2、利用String的charAt方法来查看某一位的ASCII值Integer.toBina...

2018-06-13 23:24:05 13650

转载 maven入门

转载于：https://www.cnblogs.com/whgk/p/7112560.html我记得在搞懂maven之前看了几次重复的maven的教学视频。不知道是自己悟性太低还是怎么滴，就是搞不清楚，现在弄清楚了，基本上入门了。写该篇博文，就是为了帮助那些和我一样对于maven迷迷糊糊的人。有福了，看完基本上你就会发现原来这么简单。　　　　　　参考博文：通俗理解maven　　　　　　该篇文章篇...

2018-06-05 10:32:06 166

转载 Java中ArrayList和LinkedList区别

转载于：https://www.cnblogs.com/huzi007/p/5550440.htmlArrayList和LinkedList的大致区别如下:1.ArrayList是实现了基于动态数组的数据结构，LinkedList基于链表的数据结构。 2.对于随机访问get和set，ArrayList觉得优于LinkedList，因为LinkedList要移动指针。 3.对于新增和删除操作add和...

2018-06-04 20:43:41 137

转载【甘道夫】通过Mahout构建贝叶斯文本分类器案例详解

转载于：https://blog.csdn.net/u010967382/article/details/25368795背景&目标：1、sport.tar 是体育类的文章，一共有10个类别；用这些原始材料构造一个体育类的文本分类器，并测试对比bayes和cbayes的效果；记录分类器的构造过程和测试结果。2、user-sport.tar 是用户浏览的文章，每个文件夹对应一个用...

2018-05-24 18:11:54 455

转载 TF-IDF及其算法

概念 TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与...

2018-05-16 18:08:26 7831 2

原创利用TFIDF进行实时微博情感分类

一、思路分析先来分析一下思路：本项目所用的语料库是pos.txt和neg.txt两个文件，分别代表pos（积极）和neg（消极）类别，文件中有很多条已经分好类的微博，一整行为一条。 1、计算tftf应该分类别计算。分别计算某个词在每个类别中的tf。这是什么意思呢？我们往下看。某一个词在某种类别的tf=这类文件中这个词出现的次数/这类文件...

2018-05-16 18:07:16 3641 1

转载 Mahout TF-IDF向量化源码解析

转载于：http://www.cnblogs.com/fesh/p/3775429.html一、原理TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者...

2018-05-11 18:17:24 218

转载 Lucene中常用的几个分词器

来自网页：http://blog.csdn.net/ceclar123/article/details/10150839一、WhitespaceAnalyzer以空格作为切词标准，不对语汇单元进行其他规范化处理。很明显这个实用英文，单词之间用空格。[java] view plain copypackage bond.lucene.analyzer; import org.apache.luc...

2018-05-09 11:39:25 3025

原创用递归实现二叉树的三种遍历

qianxu(Treenode root){//前序遍历 record();//把当前节点值记录下来 qianxu(root.left); qianxu(root.right);}zhongxu(Treenode root){//中序遍历 zhongxu(root.left); record(); zhongxu(root.right);}houxu(Treenode r...

2018-05-07 20:55:20 396

转载二叉树的四种遍历方法

转载于：http://www.cnblogs.com/fly-me/p/wei-ti-jiaoer-cha-shu-de-si-zhong-bian-li-fang-fa.html前序中左右中序左中右后序左右中前序遍历若树为空，则空操作返回。否则，先访问根节点，然后前序遍历左子树，再前序遍历右子树。（W）型（中左右）中序遍历若树为空，则空操作返回。否则，从根节点开始（注意并不是先访问根节点...

2018-04-20 21:11:00 2278

原创 Java中链表的头节点

一个链表头节点为headhead 1 2 3 4 5 6head叫做链表的头节点1所在的节点叫做链表的首节点（不知叫法是否准确）从定义上严格来说头节点head本身并没有值，它只是一个指向首节点1的指针。也就是说head.val为空，head.next.val=1。即head的下一个节点才是1的节点。那上述的链表就有7个节点（包含头节点head）。但...

2018-04-12 22:43:14 17600 2

转载 Java中数组(Array)和列表(ArrayList)的区别

转载自：http://blog.csdn.net/chenglansky/article/details/445678871）精辟阐述：可以将 ArrayList想象成一种“会自动扩增容量的Array”。2）Array（[]）：最高效；但是其容量固定且无法动态改变； ArrayList：容量可动态增长；但牺牲效率；3）建议：基于效率和类型检验，应尽可能使用Array，无法确定数组大小时...

2018-04-11 22:05:34 32137 1

转载 HBase优化

转自 http://blog.csdn.net/clerk0324/article/details/532182841. 表的设计1.1 Pre-Creating Regions默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建...

2018-04-11 21:58:13 243

转载 Mahout 命令

转载于：http://bit1129.iteye.com/blog/22137081. mahout seqdirectory 生成序列文件Java代码 $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) outpu...

2018-04-11 19:10:12 729

空空如也

空空如也