burpee-CSDN博客

转载 jdk8

一、Java 8 Lambda 表达式Lambda 表达式，也可称为闭包，它是推动 Java 8 发布的最重要新特性。Lambda 允许把函数作为一个方法的参数（函数作为参数传递进方法中）。使用Lambda 表达式可以使代码变的更加简洁紧凑。1.1 语法lambda 表达式的语法格式如下：(parameters) -> expression或(parameters) ->{statements; }以下是lambda表达式的重要特征:·可选类型声明...

2020-12-29 12:39:15 408

原创 CRM模型及改造

1、现状2、改造点：3、应用架构4、目标

2020-12-07 08:51:43 685

原创 2020-12-04

需求：从证件会的网站，下载excel文件，然后解析excel文件，生成数据落地odps实现方案：1、每周自动下载附件2、python把附件上传至oss3、读取oss文件，解析导入odps1-自动下载附件接触一个新工具 UiBot，如下图：结果：下载到固定文件夹：以8位日期命名2.python把附件上传至oss（2.7）运行结果：3.python解析文件落数据至ODPS结果：...

2020-12-04 15:20:35 340

转载 RabbitMQ概念详解

https://blog.csdn.net/bestmy/article/details/84304964一．AMQP协议1. AMQP协议简介AMQP，即Advanced Message Queuing Protocol,一个提供统一消息服务的应用层标准高级消息队列协议,是应用层协议的一个开放标准,为面向消息的中间件设计。基于此协议的客户端与消息中间件可传递消息，并不受客户端/中间件不同产品，不同的开发语言等条件的限制。Erlang中的实现有 RabbitMQ等。2. 功能范围存.

2020-10-22 09:29:01 373 1

转载消息队列

原文地址：https://blog.csdn.net/Jack__iT/article/details/87655433消息中间件用于处理异步消息优点：系统解耦、异步、横向扩展、安全可靠，保存消息直到消息调用完全部服务处理完后什么是中间件？非底层操作系统软件，非业务应用软件，不是直接给最终用户使用的，不能直接给客户带来价值的软件统称为中间件。什么消息中间件？关注于数据的发送和接收，利用高效可靠的异步消息传递机制集成分布式系统什么是JMSJMS即java消息服务（java

2020-10-22 09:24:35 148

原创 XXX对账单的定时发送-odps-python-dataworks

需求：方案时序图：实现过程1、抽取订阅消息的人员名单 datax2、计算范围内的结果数据3、编写py的资源，注册函数以py类的方式封装udf方法注册成udf函数利用udf把数据封装成json数据封装到最终结果表udf封装函数4、调用接口，发送对账单...

2020-10-21 11:31:59 453 1

原创百万数据解析-python-oss-python（2-历史数据）

上传oss工具安装阿里文档：实际运行，如下图：服务器历史文件：3000多个 100多G经过解析后的txt文件：调用命令上传文件：oss结果：新建odps外表及设立分区：使用数据：小插曲：建表时最好用String，因为可能存在脏数据，odps在转换成 bigint 或者 decimal的时候可能会报错。...

2020-10-20 16:17:07 225

原创百万数据解析-python-oss-python

需求：1、每天的分钟K线数据，格式：pkl，大小：40M左右，量级：百万，历史:3000左右个同类型文件增量：每天一个文件2、落地数仓ODPS，每天一个分区，用来做数据分析建模环境：本机：8核 3.4G 16G内存开发环境：python3.7上传OSS工具：ossutil Windows x86 64bit 版本 ossutil64.ziphttps://help.aliyun.com/document_detail/120075.html...

2020-10-19 10:13:31 680

转载 Phoenix常用命令操作hbase

1、登录命令./sqlline.py localhost:2181:/hbase-unsecurephoenix-sqlline localhost:2181:/hbase-unsecure2、退出!quit!exit3、帮助4、列出metadata信息5、创建表create table if not exists ljc.stud...

2019-07-18 09:17:52 3136

转载 MongoDB数据库详解

原文转载地址：https://www.cnblogs.com/bananaaa/p/8204362.html优点：https://www.cnblogs.com/web-fusheng/p/6884712.html更高的写负载默认情况下，对比事务安全，MongoDB更关注高的插入速度。如果你需要加载大量低价值的业务数据，比如日志收集，那么MongoDB将很适合你的用例，但是必须避免在要...

2019-02-19 16:29:42 339 1

转载线程池的介绍

原理篇：http://www.cnblogs.com/dolphin0520/p/3932921.html 场景篇：https://www.cnblogs.com/sachen/p/7401959.htmlnewCachedThreadPool：底层：返回ThreadPoolExecutor实例，corePoolSize为0；maximumPoolSize为Integer....

2019-01-25 16:56:23 221

转载 java线程编程-等待通知机制

原文地址：http://www.cnblogs.com/-new/p/7217844.html

2019-01-24 10:02:50 190

转载分布式事务

原文地址：https://blog.csdn.net/congyihao/article/details/70195154

2019-01-16 15:52:33 175

转载 java。。。

https://www.cnblogs.com/chenssy/category/525010.html

2019-01-15 16:50:13 161

转载微服务-springcloud

原文地址：https://www.cnblogs.com/xiaojunbo/p/7090742.html微服务架构需要的功能或使用场景 1：我们把整个系统根据业务拆分成几个子系统。 2：每个子系统可以部署多个应用，多个应用之间使用负载均衡。 3：需要一个服务注册中心，所有的服务都在注册中心注册，负载均衡也是通过在注册中心注册的服务来使用一定策略来实现。 4：...

2019-01-15 15:57:32 197

转载区块链-简单理解

作者：知乎用户链接：https://www.zhihu.com/question/37290469/answer/293890531来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。友情提醒：比特币采用区块链技术，但是区块链并不等同于比特币；全篇基于比特币底层区块链技术讲述，所以，部分模型可能不适用于以太坊等。另外，由于文章采用了一定的抽象、类举的叙事方式，中间或多或少...

2018-05-03 08:19:56 1617

转载 Kafka(分布式发布-订阅消息系统)

一、简介Apache Kafka是分布式发布-订阅消息系统，在 kafka官网上对 kafka 的定义：一个分布式发布-订阅消息传递系统。它最初由LinkedIn公司开发，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka是一种快速、可扩展的、设计内在就是分布式的，分区的和可复制的提交日志服务。几种分布式系统消息系统的对比：推荐相关文章：各消息队列对比，Kafk...

2018-04-20 12:57:08 7473 1

转载机器学习-层次聚类 hierarchical clustering

假设有N个待聚类的样本，对于层次聚类来说，步骤： 1、（初始化）把每个样本归为一类，计算每两个类之间的距离，也就是样本与样本之间的相似度； 2、寻找各个类之间最近的两个类，把他们归为一类（这样类的总数就少了一个）； 3、重新计算新生成的这个类与各个旧类之间的相似度； 4、重复2和3直到所有样本点都归为一类，结束整个聚类过程其实是建立了一棵树...

2018-04-12 10:57:15 389

转载机器学习-KNN和K-Means的区别

KNN和K-Means的区别

2018-04-12 10:37:06 1349

转载机器学习-LVQ

学习矢量量化(Learning Vector Quantization)，简称LVQ，于1988年由Kohonen提出的一类用于模式分类的有监督学习算法，是一种结构简单、功能强大的有监督式神经网络分类方法。典型的学习矢量量化算法有LVQ1、LVQ2和LVQ3，其中前两种算法应用较为广泛，尤以LVQ2的应用最为广泛和有效。已经成功应用到统计学、模式识别、机器学习等多个领域。1、简介：学习矢量量化是一...

2018-04-12 10:08:51 10494

转载机器学习-入门了解

本文的大纲：一，从机器学习问题角度分类二，从算法的功能角度分类三，机器学习算法决策树---------------------------一，从机器学习问题角度分类我们先从机器学习问题本身分类的角度来看，我们可以分成下列类型的算法。监督学习机器学习中有一大部分的问题属于监督学习的范畴，简单口语化地说明，这类问题中，给定的训练样本中，每个样本的输入x都对应一个确定的结果y，我们需要训练出一个模型(数...

2018-04-12 09:55:06 547

转载机器学习-线性回归

1、Linear Regression可以说基本上是机器学习中最简单的模型了，但是实际上其地位很重要（计算简单、效果不错，在很多其他算法中也可以看到用LR作为一部分）。先来看一个小例子，给一个“线性回归是什么”的概念。图来自[2]。假设有一个房屋销售的数据如下：面积(m^2) 销售价钱（万元） 123 250 150 320 ...

2018-04-11 11:22:32 493

转载机器学习-随机森林

一、决策树决策树是机器学习最基本的模型，在不考虑其他复杂情况下，我们可以用一句话来描述决策树：如果得分大于等于60分，那么你及格了。这是一个最最简单的决策树的模型，我们把及格和没及格分别附上标签，及格（1），没及格（0），那么得到的决策树是这样的但是我们几乎不会让计算机做这么简单的工作，我们把情况变得复杂一点引用别的文章的一个例子这是一张女孩对于不同条件的男性是否会选择见面的统计表，图中是否见面作...

2018-04-11 10:54:07 449

转载机器学习-朴素贝叶斯（Naive Bayes）

朴素贝叶斯是经典的机器学习算法之一，也是为数不多的基于概率论的分类算法。朴素贝叶斯原理简单，也很容易实现，多用于文本分类，比如垃圾邮件过滤。该算法虽然简单，但是由于笔者不常用，总是看过即忘，这是写这篇博文的初衷。当然，更大的动力来在于跟大家交流，有论述不妥的地方欢迎指正。1.算法思想——基于概率的预测逻辑回归通过拟合曲线（或者学习超平面）实现分类，决策树通过寻找最佳划分特征进而学习样本路径实现分类...

2018-04-11 10:07:20 320

转载机器学习-分类与回归

分类和回归的区别在于输出变量的类型。定量输出称为回归，或者说是连续变量预测；定性输出称为分类，或者说是离散变量预测。举个例子：预测明天的气温是多少度，这是一个回归任务；预测明天是阴、晴还是雨，就是一个分类任务。 1.回归问题的应用场景回归问题通常是用来预测一个值，如预测房价、未来的天气情况等等，例如一个产品的实际价格为500元，通过回归分析预测值为499元，我们认为这是一个比较好的回归分析。一...

2018-04-11 06:53:46 474

转载机器学习-K近邻算法（KNN）

一.基本思想K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分类到这个类中。如下面的图：通俗一点来说，就是找最“邻近”的伙伴，通过这些伙伴的类别来看自己的类别。比如以性格和做过的事情为判断特征，和你最邻近的10个人中（这里暂且设k=10），有8个是医生，有2个是强盗。那么你是医生的可能性更加大，就把你划到...

2018-04-11 06:26:48 1017

转载 jvminfo设置

参数名称含义默认值 -Xms 初始堆大小物理内存的1/64(<1GB) 默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制.-Xmx 最大堆大小物理内存的1/4(<1GB) 默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制-Xmn 年轻代大小(1....

2018-03-08 08:47:22 618

转载 python正则表达式——re模块

尊重原创，原文地址：http://blog.csdn.net/u014683535/article/details/51872093 http://blog.csdn.net/lisonglisonglisong/article/details/39697137本文所有的代码使用的python版本为python3.5.1

2017-12-21 13:37:59 484

转载 Python学习旅程

从Python菜鸟到Python Kaggler的旅程（译注：Kaggle是一个数据建模和数据分析竞赛平台）假如你想成为一个数据科学家，或者已经是数据科学家的你想扩展你的技能，那么你已经来对地方了。本文的目的就是给数据分析方面的Python新手提供一个完整的学习路径。该路径提供了你需要学习的利用Python进行数据分析的所有步骤的完整概述。如果你已经有一些相关的背景知识，或者你不需要路径中的所

2017-12-20 08:58:58 351

转载 HBase介绍

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系

2017-12-13 17:20:09 907

转载 zookeeper详解

ZooKeeper概述原文地址：https://www.cnblogs.com/wuxl360/p/5817471.htmlZooKeeper是一种为分布式应用所设计的高可用、高性能且一致的开源协调服务，它提供了一项基本服务：分布式锁服务。由于ZooKeeper的开源特性，后来我们的开发者在分布式锁的基础上，摸索了出了其他的使用方法：配置维护、组服务、分布式消息队列、分布

2017-12-12 14:18:21 391

转载 ZooKeeper 原理及其在 Hadoop 和 HBase 中的应用

原文地址：http://blog.jobbole.com/110388/ZooKeeper是一个开源的分布式协调服务，由雅虎创建，是Google Chubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。简介ZooKeeper是一个开源的分布式

2017-12-12 09:38:25 253

转载分布式消息系统：Kafka

Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发，之后成为Apache项目的一部分。Kafka是一个分布式的，可划分的，冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。原文：http://blog.jobbole.com/75328/在大数据系统中，常常会碰到一个问题，整个大数据是由各个子系统组成，数据需要在各个子系统中高性能，低

2017-12-11 16:48:43 5240

转载 ELK=Elasticsearch+Logstash+kibana

ELK：在一个典型的使用场景下(ELK)：用Elasticsearch作为后台数据的存储，kibana用来前端的报表展示。Logstash在其过程中担任搬运工的角色，它为数据存储，报表查询和日志解析创建了一个功能强大的管道链。Logstash提供了多种多样的 input,filters,codecs和output组件，让使用者轻松实现强大的功能。

2017-12-11 16:00:00 269

转载大数据处理模式 hadoop storm spark

对于仅需要批处理的工作负载，如果对时间不敏感，比其他解决方案实现成本更低的Hadoop将会是一个好选择。　　对于仅需要流处理的工作负载，Storm可支持更广泛的语言并实现极低延迟的处理，但默认配置可能产生重复结果并且无法保证顺序。Samza与YARN和Kafka紧密集成可提供更大灵活性，更易用的多团队使用，以及更简单的复制和状态管理。　　对于混合型工作负载，Spark可提供高速批处

2017-12-11 15:35:54 3723

转载 MapReduce详解

1.1 MapReduce是什么　　Hadoop MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词，一是软件框架，二是并行处理，三是可靠且容错，四是大规模集群，五是海量数据集。1.2 MapReduce做什么

2017-12-11 09:26:41 101708 2

转载 OVER函数介绍

开窗函数指定了分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变化而变化，举例如下：1：over后的写法： over（order by salary）按照salary排序进行累计，order by是个默认的开窗函数 over（partition by deptno）按照部门分区 over（partition by deptno order by

2017-02-17 16:59:02 12641

原创 oracle存储过程创建及调用

创建存储过程：create or replace procedure getweeksy(pdate IN VARCHAR2, v_OutputCode OUT VARCHAR2, v_OutPutMsg OUT VARCHAR2) ISs_date va

2016-12-28 17:02:53 629

转载 DataX介绍

一. DataX3.0概览DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。设计理念为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负责连接各种数据源。当需要接入一个新

2016-12-19 09:31:35 26678

转载 ORACLE日期时间函数

ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007 yyy

2016-12-13 09:15:33 504

空空如也

空空如也