genghaihua-CSDN博客

原创 spring context:property-placeholder 多个properties的使用

Spring容器是采用反射扫描的发现机制，通过标签的命名空间实例化实例，当Spring探测到容器中有一个org.springframework.beans.factory.config.PropertyPlaceholderCVonfigurer的Bean就会停止对剩余PropertyPlaceholderConfigurer的扫描，即只能存在一个实例。那如果有多个配置文件怎么办呢？那就多个文...

2018-09-09 12:37:28 1608

原创 mysql explain

通常我们常常用到explain这个命令来查看一个这些SQL语句的执行计划，查看该SQL语句有没有使用上了索引，有没有做全表扫描，这都可以通过explain命令来查看。所以我们深入了解MySQL的基于开销的优化器，还可以获得很多可能被优化器考虑到的访问策略的细节，以及当运行SQL语句时哪种策略预计会被优化器采用。（QEP：sql生成一个执行计划query Execution plan）expai...

2018-08-23 17:28:32 256

原创 hive mapreduce split 合并

大体思路：1 先查找各个单节点，找出依次满足最大分割、最小节点分割，最后剩余数据，进入第二步2 查看单个机架，找出依次满足最大分割、最小机架分割，最后剩余数据，进入第三步3 查找所有机架剩余数据，找出满足最大分割，最后剩余数据（小于最大分割），进入4步4 将剩下的数据做为一个数据块。 1).三个重要的属性：maxSplitSize：切片大小最大值。可通过属性 ...

2018-08-22 16:34:14 1393

原创 ES text和keyword区别

Text vs. keywordText：会分词，然后进行索引支持模糊、精确查询不支持聚合keyword：不进行分词，直接索引支持模糊、精确查询支持聚合...

2018-08-20 13:14:39 11344 3

转载 MapReduce shuffle原理

Hadoop是一个开发和运行处理大规模数据的软件平台，是Apache的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是：MapReduce和HDFS。MapReduce提供了对数据的计算，HDFS提供了海量数据的存储。MapReduceMapReduce的思想是由Google的一篇论文所提及而被广为流传的，简单的...

2018-08-15 15:24:42 857

原创 hive小文件问题

输入小文件：设置map输入合并小文件的相关参数：//每个Map最大输入大小(这个值决定了合并后文件的数量)set mapred.max.split.size=256000000; //一个节点上split的至少的大小(这个值决定了多个DataNode上的文件是否需要合并)set mapred.min.split.size.per.node=100000000;//一个交换机下s...

2018-08-13 21:50:07 868

转载协同过滤推荐

一、协同过滤算法的原理及实现二、基于物品的协同过滤算法详解一、协同过滤算法的原理及实现协同过滤推荐算法是诞生最早，并且较为著名的推荐算法。主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好，基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类，分别是基于用户的协同过滤算法(user-based collaboratI...

2018-08-09 21:35:46 319

转载 ES查看集群信息命令

本文主要讲述ElasticSearch5.6.1如何监控集群状态、查看集群信息的一般操作方法。关于ElasticSearch5.6.1的环境搭建，请参考我另一篇博文。 ElasticSearch5.6.1环境搭建与运行http://blog.csdn.net/deliciousion/article/details/78055724 在使用ES的过程中，我们时常...

2018-08-07 13:26:29 67524 1

转载 Gini 系数

Gini 系数：某个节点的Gini不纯度计算：比如，某节点A样本分属两类，C1:2, C2:4，则Gini(A) = 1 - (2/6)^2 - (4/6) ^2 = 0.444，节点B，C1:6, C2:0, 则 Gini(B) = 1 - (6/6)^2 - (0/6)^2 = 0。显然，前者的不纯度更高，所以某节点的Gini系数越大则其不纯度越高。而当评判分裂优劣时，需要用到两个子节点...

2018-08-01 15:04:48 12508

转载信息增益

介绍信息增益之前，首先需要介绍一下熵的概念，这是一个物理学概念，表示“一个系统的混乱程度”。系统的不确定性越高，熵就越大。假设集合中的变量X={x1,x2…xn}，它对应在集合的概率分别是P={p1,p2…pn}。那么这个集合的熵表示为：举一个的例子：对游戏活跃用户进行分层，分为高活跃、中活跃、低活跃，游戏A按照这个方式划分，用户比例分别为20%，30%，50%。游戏B按照这种方式划分，用...

2018-08-01 14:41:01 345

原创线性模型和树模型的区别

树形模型是一个一个特征进行处理，之前线性模型是所有特征给予权重相加得到一个新的值。决策树与逻辑回归的分类区别也在于此，逻辑回归是将所有特征变换为概率后，通过大于某一概率阈值的划分为一类，小于某一概率阈值的为另一类；而决策树是对每一个特征做一个划分。另外逻辑回归只能找到线性分割（输入特征x与logit之间是线性的，除非对x进行多维映射），而决策树可以找到非线性分割。而树形模型更加接近人的思维方式...

2018-08-01 14:23:28 5356

转载 hive函数返回的数据类型，spark sql

内置函数Hive支持以下内置函数：返回类型签名描述 BIGINT round(double a) 返回BIGINT最近的double值。 BIGINT floor(double a) 返回最大BIGINT值等于或小于double。 BIGINT ceil(double a) 它返回最小BIGINT值等于或大于double。 ...

2018-07-26 11:26:02 4128

转载 sklearn 损失函数

各种损失函数损失函数或代价函数来度量给定的模型（一次）预测不一致的程度损失函数的一般形式：风险函数：度量平均意义下模型预测结果的好坏损失函数分类：Zero-one Loss，Square Loss，Hinge Loss，Logistic Loss，Log Loss或Cross-entropy Loss，hamming_loss分类器中常用的损失函数：Zero-O...

2018-07-22 17:16:33 5941

转载 sklearn BaggingRegressor参数解释

参数介绍：　　　　base_estimator：Object or None。None代表默认是DecisionTree，Object可以指定基估计器（base estimator）。　　　　n_estimators：int, optional (default=10) 。要集成的基估计器的个数。　　　　max_samples： int or float, optional (d...

2018-07-22 17:00:25 11264 1

转载 classification_report解释

sklearn中的classification_report函数用于显示主要分类指标的文本报告．在报告中显示每个类的精确度，召回率，F1值等信息。主要参数: y_true：1维数组，或标签指示器数组/稀疏矩阵，目标值。 y_pred：1维数组，或标签指示器数组/稀疏矩阵，分类器返回的估计值。 labels：array，shape = [n_labels]，报表中包含的标签索引的可选列表。...

2018-07-22 15:39:16 45068 7

转载 make_classification参数解释

参数类型默认说明 n_samples int类型可选 (default=100) 样本数量. n_features int 可选 (default=20) 总的特征数量,是从有信息的数据点，冗余数据点，重复数据点，和特征点-有信息的点-冗余的点-重复点中随机选择的。 n_informative int optio...

2018-07-22 14:42:51 23614 6

转载 sklearn pca

1. scikit-learn PCA类介绍　　　　在scikit-learn中，与PCA相关的类都在sklearn.decomposition包中。最常用的PCA类就是sklearn.decomposition.PCA，我们下面主要也会讲解基于这个类的使用的方法。　　　　除了PCA类以外，最常用的PCA相关类还有KernelPCA类，在原理篇我们也讲到了，它主要用于非线性数据的降维，需要...

2018-07-20 13:15:19 360

转载均方根误差（RMSE），平均绝对误差(MAE)，标准差(Standard Deviation)的对比

RMSERoot Mean Square Error,均方根误差是观测值与真值偏差的平方和与观测次数m比值的平方根。是用来衡量观测值同真值之间的偏差MAEMean Absolute Error ，平均绝对误差是绝对误差的平均值能更好地反映预测值误差的实际情况.标准差Standard Deviation ，标准差是方差的算数平方根是用来衡量一组数自身的离散程度...

2018-07-19 17:32:03 10069

原创 python pandas xgboost sklearn 等安装

sudo yum install python-pip -y最近要对一系列数据做同比比较，需要用到numpy和pandas来计算，不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了。首要条件，python版本必须是2.7以上。linux首先安装依赖包sudo pip install setuptools --upgradepython -m pip ...

2018-06-28 10:50:49 1311

转载 Hive 正则匹配函数 regexp_extract

本文转载于https://www.cnblogs.com/skyEva/p/5175377.html，感谢作者分享1。regexp_extract语法: regexp_extract(string subject, string pattern, int index)返回值: string说明：将字符串subject按照pattern正则表达式的规则拆分，返回index指定的字符。第...

2018-06-05 21:35:26 3653

原创 kettle对mysql的tinyint类型处理

会自动转换为布尔型解决方法：通过拼接字符串，如select type+'' as type .

2018-05-31 16:13:20 1456

原创删除链表中重复的结点

public ListNode deleteDuplication(ListNode pHead) { if(pHead==null||pHead.next==null)return pHead; if(pHead.val==pHead.next.val){ ListNode node=pHead.next; ...

2018-05-01 20:13:14 124

原创二叉搜索树第k个节点

TreeNode KthNode(TreeNode pRoot, int k) { int count = 0; if (count >= k || pRoot == null) return null; TreeNode p = pRoot; Stack<TreeNode> nodeSta...

2018-05-01 19:09:20 165

原创二叉树中和为某一值的路径

public ArrayList<ArrayList<Integer>> FindPath(TreeNode root, int target) { ArrayList<ArrayList<Integer>> pathlist = new ArrayList<>(); if (root == null) ...

2018-05-01 17:38:48 125

原创判断一棵树是不是平衡二叉树

public int getDepth(TreeNode rootnode) { if (rootnode == null) return 0;//如果当前节点为空返回深度为0 int leftlength = getDepth(rootnode.left); int rigthlength = getDepth(rootnode.right); ...

2018-05-01 15:48:44 457 2

原创 scala identity使用

identity该方法简单的把传出的参数原封不动的再返回，val a=Array(1,2,3,3,3)a: Array[Int] = Array(1, 2, 3, 3, 3 a.groupBy(identity))res1: scala.collection.immutable.Map[Int,Array[Int]] = Map(2 -> Array(2), 1 -> Array(1)...

2018-04-30 16:08:02 1867

原创 Hive tuning

一篇不错的hive调优shuffle mapreduce参数join(mapjoin bucketjoin) orc文件格式使用，可以跳过某些数据io.sort.mb 环形缓冲区mapper reducer个数skew数据倾斜hdfs复制因子和tez缓存的使用distribute by sort by 和cluster bydfs-client https:

2018-04-25 19:18:11 226

转载 UML类图几种关系的总结

U在UML类图中，常见的有以下几种关系: 泛化（Generalization）, 实现（Realization），关联（Association)，聚合（Aggregation），组合(Composition)，依赖(Dependency)1. 泛化（Generalization）【泛化关系】：是一种继承关系，表示一般与特殊的关系，它指定了子类如何特化父类的所有特征和行为。例如：老虎是动物的一种，即...

2018-04-18 13:38:01 180

原创 shell sort 指定分隔符

sort -t $'\x01'

2018-04-18 11:52:33 2471

原创 mysql insert ON DUPLICATE KEY UPDATE

向数据库中插入一条记录：若该数据的主键值/ UNIQUE KEY 已经在表中存在,则执行更新操作, 即UPDATE 后面的操作。否则插入一条新的记录。

2018-04-16 10:43:40 132

原创股票买卖（买入卖出一次）

public int maxProfit(int[] prices) { int maxprofit=0;//最大利润 if(prices.length==0) return maxprofit; int min=prices[0];//当前最小买入价 for(int i=1;i<prices.length...

2018-04-15 14:51:49 1819

原创和为S的两个数字

题目描述输入一个递增排序的数组和一个数字S，在数组中查找两个数，是的他们的和正好是S，如果有多对数字的和等于S，输出两个数的乘积最小的。输出描述:对应每个测试案例，输出两个数，小的先输出。 public ArrayList<Integer> FindNumbersWithSum(int [] array,int sum) { ArrayList<Integer&g...

2018-04-14 21:34:07 140

原创数组中有两个出现一次的数字，其他数字都出现两次，找出这两个数字

public void FindNumsAppearOnce(int [] array,int num1[] , int num2[]) { int length=array.length; if(length==2){ num1[0]=array[0]; num2[1]=array[1]; } ...

2018-04-14 21:22:06 681

原创二叉树的深度

输入一棵二叉树，求该树的深度。从根结点到叶结点依次经过的结点（含根、叶结点）形成树的一条路径，最长路径的长度为树的深度。class TreeNode { int val = 0; TreeNode left = null; TreeNode right = null; public TreeNode(int val) { this.val = va...

2018-04-14 20:42:17 96

原创数字在排序数组中出现的次数

题目：统计一个数字在排序数组中出现的次数。例如输入排序数组{1,2,3,3,3,3,4,5}和数字3，由于3在这个数组中出现了4次，因此输出4。public static int GetNumberOfK(int [] array , int k) { int length=array.length; int low=0; int high=leng...

2018-04-14 20:24:00 98

原创两个链表的第一个公共结点

题目描述输入两个链表，找出它们的第一个公共结点。class ListNode { int val; ListNode next = null; ListNode(int val) { this.val = val; }}public ListNode FindFirstCommonNode(ListNode pHead1, ListNode p...

2018-04-14 19:31:17 133

原创连续子数组的最大和

HZ偶尔会拿些专业问题来忽悠那些非计算机专业的同学。今天测试组开完会后,他又发话了:在古老的一维模式识别中,常常需要计算连续子向量的最大和,当向量全为正数的时候,问题很好解决。但是,如果向量中包含负数,是否应该包含某个负数,并期望旁边的正数会弥补它呢？例如:{6,-3,-2,7,-15,1,2,2},连续子向量的最大和为8(从第0个开始,到第3个为止)。你会不会被他忽悠住？(子向量的长度至少是1)...

2018-04-14 19:20:42 97

原创数组中出现次数超过一半的数字

数组中有一个数字出现的次数超过数组长度的一半，请找出这个数字。例如输入一个长度为9的数组{1,2,3,2,2,2,5,4,2}。由于数字2在数组中出现了5次，超过数组长度的一半，因此输出2。如果不存在则输出0。 public static int MoreThanHalfNum_Solution(int[] array) { int length = array.length;...

2018-04-14 18:29:54 127

原创最小的K个数

输入n个整数，找出其中最小的K个数。例如输入4,5,1,6,2,7,3,8这8个数字，则最小的4个数字是1,2,3,4,。import java.util.ArrayList;import java.util.Comparator;import java.util.PriorityQueue;public class Solution { public ArrayList<Intege...

2018-04-14 17:51:13 140

原创 spring boot jetty 主要配置

server.jetty.acceptors= # Number of acceptor threads to use.server.jetty.accesslog.append=false # Append to log.server.jetty.accesslog.date-format=dd/MMM/yyyy:HH:mm:ss Z # Timestamp format of the re...

2018-04-12 16:30:45 6216

美团-机器学习-实践_最新AI算法实践真知

美团-机器学习-实践_最新AI算法实践真知人工智能技术正以一种超快的速度深刻地改变着我们的生活，引导了第四次工业革命。美团作为国内O2O领域领先的服务平台，结合自身的业务场景和数据，积极进行了人工智能领域的应用探索。在美团的搜索、推荐、计算广告、风控、图像处理等领域，相关的人工智能技术得到广泛的应用。本书包括通用流程、数据挖掘、搜索和推荐、计算广告、深度学习以及算法工程6大部分内容，全面介绍了美团在多个重要方面对机器学习的应用。本书非常适合有一定机器学习基础的工程技术人员和在校大学生学习和阅读。通过本书，有经验的算法工程师可以了解美团在这方面的做法，在校大学生可以学习机器学习算法如何在具体的业务场景中落地。

2018-11-22

elasticsearch-the-definitive-guide-cn

elasticsearch-the-definitive-guide-cn Elasticsearch权威指南(中文版)

2018-08-22

hive调优总结文档-hive tuning ppt

hive调优总结，网络上分享的hive常见优化细节，join、shuffle优化等等。很不错

2018-08-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人