2018年10月_hellozhxy

转载 scala学习笔记-集合操作（15）

Scala的集合体系结构1 // Scala中的集合体系主要包括：Iterable、Seq、Set、Map。其中Iterable是所有集合trait的根trai。这个结构与Java的集合体系非常相似。2 3 // Scala中的集合是分成可变和不可变两类集合的，其中可变集合就是说，集合的元素可以动态修改，而不可变集合的元素在初始化之后，就无法修改了。分别对应scala.collectio...

2018-10-31 20:47:24 162

转载 Spark读写Hbase的二种方式对比

作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处一.传统方式这种方式就是常用的TableInputFormat和TableOutputFormat来读写hbase，如下代码所示简单解释下，用sc.newAPIHadoopRDD根据conf中配置好的scan来从Hbase的数据列族中读取包含(ImmutableBytesWrita...

2018-10-31 20:38:37 2295

转载 XGBoost 与 Spark 在广告排序中的应用

文章来源: mp.weixin.qq.com/s/4i5O0QlKpWz......背景广告排序的核心问题是CTR预估，CTR预估的准确度，很大程度上决定了最终排序的质量。工业界目前用的比较多的是基于LR的线性策略，该方法的主要问题之一是需要人工大量的时间去挑选和组合特征，而使用树模型(tree model)则可以大大减轻这个工作量。XGBoost是GBRT的一个工程实现，GBRT...

2018-10-31 20:15:36 3385 2

HBase经过七年发展，终于在今年2月底，发布了 1.0.0 版本。这个版本提供了一些让人激动的功能，并且，在不牺牲稳定性的前提下，引入了新的API。虽然 1.0.0 兼容旧版本的 API，不过还是应该尽早地来熟悉下新版API。并且了解下如何与当下正红的 Spark 结合，进行数据的写入与读取。鉴于国内外有关 HBase 1.0.0 新 API 的资料甚少，故作此文。本文将分两部分介绍，第一部...

2018-10-31 19:54:38 815

转载 Scala Hbase 问题汇总

1.object hbase is not a member of package org.apache.hadoop when compiling scala 在Scala工程中使用HBase API，import hbase时，import org.apache.hadoop.hbase出现编译错误解决（大概，没有尝试）：使用sbt构建工程时，添加依赖： hbase-cl...

2018-10-31 19:52:34 1475

转载 spark从hbase读取写入数据

将RDD写入hbase注意点：依赖：将lib目录下的hadoop开头jar包、hbase开头jar包添加至classpath此外还有lib目录下的：zookeeper-3.4.6.jar、metrics-core-2.2.0.jar（缺少会提示hbase RpcRetryingCaller: Call exception不断尝试重连hbase，不报错）、htrace-core-3.1...

2018-10-31 12:42:20 6122

转载 scala的foreach和for

一句印象深刻的话，Alan Kay（Smalltalk发明者）说得一句话：“I’m not against types, but I don't know of any typesystems that aren't a complete pain, so I still like dynamic typing”。并不是静态类型不好，只是静态类型的实现太让他痛苦了，所以他只好喜欢动态类型（语言）...

2018-10-31 10:38:59 1719

转载 SparkSQL操作Hive Table

Spark SQL支持对Hive的读写操作。然而因为Hive有很多依赖包，所以这些依赖包没有包含在默认的Spark包里面。如果Hive依赖的包能在classpath找到，Spark将会自动加载它们。需要注意的是，这些Hive依赖包必须复制到所有的工作节点上，因为它们为了能够访问存储在Hive的数据，会调用Hive的序列化和反序列化(SerDes)包。Hive的配置文件hive-site.xml、c...

2018-10-31 10:13:58 7800

转载利用xgboost4j下的xgboost分类模型案例

package spark.xgb.testimport ml.dmlc.xgboost4j.scala.Boosterimport ml.dmlc.xgboost4j.scala.spark.XGBoostimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSession/** * Created b...

2018-10-30 16:45:25 1792

转载基于TensorFlow Serving的深度学习在线预估

一、前言随着深度学习在图像、语言、广告点击率预估等各个领域不断发展，很多团队开始探索深度学习技术在业务层面的实践与应用。而在广告CTR预估方面，新模型也是层出不穷： Wide and Deep[1]、DeepCross Network[2]、DeepFM[3]、xDeepFM[4]，美团很多篇深度学习博客也做了详细的介绍。但是，当离线模型需要上线时，就会遇见各种新的问题：离线模型性能能否满足...

2018-10-30 13:26:43 1193

转载知识付费与内容变现领域的会员体系设计

知识付费与内容变现是近两年的热词，自媒体平台让个人得以发声，优质IP积累了垂直领域的粉丝群后，如何变现与精耕运维成为了新一轮的聚焦，本文将探讨内容变现领域该如何做会员体系的设计。结构图一、 About 内容变现内容变现通常会经历以下两个步骤：Step1在垂直领域积累该兴趣范围内的用户群，这些用户群都是因此类内容而聚集的兴趣爱好者，比如健身、美食、旅游、医疗、财经、母婴等。...

2018-10-30 12:31:28 4626

转载广告点击率常用模型的优点和缺点

LR优点：1. 是一个很好的baseline，效果不错，当然因为效果不错，所以后续的版本想超过它，真的还是很难的。2. 实现简单，有开源的工具可以直接用来训练，在线的代码也写起来也比较容易缺点：1. 因为是线性模型，所以有选择交叉特征的工作，这部分工作消耗大量的精力，但往往没什么效果。一般都是wrapper方法选择，每轮可能都要进行小时级的运算，理论上要进行2^n轮...

2018-10-26 18:36:01 2141 1

转载点击率预估中的FM算法&FFM算法

转载请注明出处：https://blog.csdn.net/gamer_gyt/article/details/81038913特征决定了所有算法效果的上限，而不同的算法只是离这个上限的距离不同而已CTR方法概览广义线性模型+人工特征组合（LR+FeatureEngineering）非线性模型（GBDT，FM，FFM，DNN，MLR）广义线性模型+非线性模型组合特征（模型融合...

2018-10-26 17:44:40 1723

转载最短路径问题：Dijkstra算法详解

前言 Nobody can go back and start a new beginning,but anyone can start today and make a new ending. Name:Willam Time:2017/3/81、最短路径问题介绍问题解释：从图中的某个顶点出发到达另外一个顶点的所经过的边的权重和最小的一条路径，称为最短路径解决问题的算法：...

2018-10-25 11:25:04 803 1

转载 Kafka设计解析（八）- Exactly Once语义与事务机制原理

本文转发自技术世界，原文链接　http://www.jasongj.com/kafka/transaction/写在前面的话本文所有Kafka原理性的描述除特殊说明外均基于Kafka 1.0.0版本。为什么要提供事务机制Kafka事务机制的实现主要是为了支持Exactly Once即正好一次语义操作的原子性有状态操作的可恢复性Exactly Once《Kafk...

2018-10-25 11:09:39 216

转载 Kafka设计解析（七）- Kafka Stream

本文转发自技术世界，原文链接　http://www.jasongj.com/kafka/kafka_stream/Kafka Stream背景Kafka Stream是什么Kafka Stream是Apache Kafka从0.10版本引入的一个新Feature。它是提供了对存储于Kafka内的数据进行流式处理和分析的功能。Kafka Stream的特点如下：Kafka S...

2018-10-24 21:03:01 652

转载 Kafka设计解析（六）- Kafka高性能架构之道

原创文章，转载请务必将下面这段话置于文章开头处。本文转发自技术世界，原文链接　http://www.jasongj.com/kafka/high_throughput/摘要上一篇文章《Kafka设计解析（五）- Kafka性能测试方法及Benchmark报告》从测试角度说明了Kafka的性能。本文从宏观架构层面和具体实现层面分析了Kafka如何实现高性能。宏观架构层面利用Pa...

2018-10-24 17:11:12 202

转载反射的用途及实现

反射的核心是JVM在运行时才动态加载类或调用方法/访问属性，它不需要事先（写代码的时候或编译期）知道运行对象是谁。一、Java反射框架主要提供以下功能：1.在运行时判断任意一个对象所属的类；2.在运行时构造任意一个类的对象；3.在运行时判断任意一个类所具有的成员变量和方法（通过反射甚至可以调用private方法）；4.在运行时调用任意一个对象的方法二、主要用途：1、反...

2018-10-23 17:21:57 5020

转载分布式系统监控系统zipkin入门

zipkin为分布式链路调用监控系统，聚合各业务系统调用延迟数据，达到链路调用监控跟踪。 architecture如图，在复杂的调用链路中假设存在一条调用链路响应缓慢，如何定位其中延迟高的服务呢？日志：通过分析调用链路上的每个服务日志得到结果 zipkin：使用zipkin的web UI可以一眼看出延迟高的服务如图所示，各业务系统在彼此调用时，将特定的跟踪消息传递至zi...

2018-10-23 17:05:50 463

转载 MySQL主从延时这么长，要怎么优化？

MySQL主从复制，读写分离是互联网常见的数据库架构，该架构最令人诟病的地方就是，在数据量较大并发量较大的场景下，主从延时会比较严重。为什么主从延时这么大？答：MySQL使用单线程重放RelayLog。应该怎么优化，缩短重放时间？答：多线程并行重放RelayLog可以缩短时间。多线程并行重放RelayLog有什么问题？答：需要考虑如何分割RelayLog，才能够让多...

2018-10-23 15:02:38 190

转载 Java系统资源消耗定位概述

通常运行的Java程序遇到性能问题表象是资源消耗过多、外部处理系统的性能不足，或者资源消耗不多，但是程序响应速度却达不到要求。资源主要消耗在CPU 、文件IO、网络IO以及内存方面，机器资源是有限的，当某资源消耗过多时，通常会造成系统的响应速度慢。CPU消耗分析可以使用top或者pidstat 方式来查看进程中线程的CPU消耗情况。输入top命令，可以查看CPU的消耗情况:如果...

2018-10-23 14:04:47 859

转载算法和编程面试题精选 TOP50！(附代码+解题思路+答案)

本篇文章的面试资源，主要包含五部分内容：数组、链表、字符串、二叉树和重要算法（如排序算法）的编程面试题，其中每部分内容，都列出了一些最常被问到的热门问题。并且在每个题目后，给出了可以参考的解决思路和代码。因为题目较多，我们没有罗列所有的方法和代码，只给出了访问地址。相信大家在掌握了这些内容后，一定可以提升实力、信心大增。作者 | javinpaul出品 | AI科技大本营数组...

2018-10-23 14:01:55 392

转载 Java架构经验总结

下面这3种方法，你应该加以重视：吃透基础技术养成良好的阅读源码的习惯有长期的技术学习规划下面，我们来一起逐条看看，特别是第 3 个方法。吃透基础技术基础技术是各种上层技术共同的基础。吃透基础技术是为了更好地理解程序的运行原理，并基于这些基础技术进化出更优化的产品。很多分布式系统架构，以及高可用、高性能、高并发的解决方案基本都可以在基础技术上找到它们的身影。所以，对基础技术的...

2018-10-22 21:13:54 913

转载 Kafka深度解析

本文转发自技术世界，原文链接　http://www.jasongj.com/2015/01/02/Kafka深度解析背景介绍Kafka简介　　Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下：以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息...

2018-10-22 17:43:03 188

转载 fastjson Features 说明

/** * 这个特性，决定了解析器是否将自动关闭那些不属于parser自己的输入源。如果禁止，则调用应用不得不分别去关闭那些被用来创建parser的基础输入流InputStream和reader；如果允许，parser只要自己需要获取closed方法（当遇到输入流结束，或者parser自己调用JsonParder#close方法），就会处理流关闭。 * 注意：这个属性默认是true，即允...

2018-10-19 10:39:02 5156

转载 TCP三次握手原理

问题描述场景：Java 的 Client 和 Server，使用 Socket 通信。Server 使用 NIO。问题：间歇性出现 Client 向 Server 建立连接三次握手已经完成，但 Server 的 Selector 没有响应到该连接。出问题的时间点，会同时有很多连接出现这个问题。 Selector 没有销毁重建，一直用的都是一个。程序刚启动的时候必会出现一些，之...

2018-10-17 13:40:46 1207

转载技术 KPI 的量化

技术 KPI 的量化提升技术氛围，打造工程师文化不能仅停留在口头上，可搭配一定的强制手段，比如和技术人员的利益绑定。这种绑定就需要我们能对技术贡献进行一个相对公平的分解和量化。技术 KPI基于此，我将技术人员的 KPI 分解为业务贡献、技术贡献和团队贡献三个大的部分。其详细内容如下：业务贡献：包括需求把控，业务项目和业务创新。技术贡献：包括设计重构、技术影响力、Code R...

2018-10-17 09:46:46 2273

转载服务器TIME_WAIT和CLOSE_WAIT详解和解决办法

来自：http://blog.csdn.net/shootyou/article/details/6622226 昨天解决了一个HttpClient调用错误导致的服务器异常，具体过程如下：http://blog.csdn.net/shootyou/article/details/6615051里头的分析过程有提到，通过查看服务器网络状态检测到服务器有大量的CLOSE_WAIT的状态...

2018-10-16 15:17:37 167

转载 CMS之promotion failed&concurrent mode failure

CMS并行GC收集器是大多数JAVA服务应用的最佳选择，然而， CMS并不是完美的，在使用CMS的过程中会产生2个最让人头痛的问题：promotion failed该问题是在进行Minor GC时，Survivor Space放不下，对象只能放入老年代，而此时老年代也放不下造成的。（promotion failed时老年代CMS还没有机会进行回收，又放不下转移到老年代的对象，因此会出现下一...

2018-10-15 16:37:03 457

转载知乎容器化构建系统设计和实践

知乎选用 Jenkins 作为构建方案，因其强大和灵活，且有非常丰富的插件可供使用和扩展。早期，应用数量较少时，每个开发者都手动创建并维护着几个 Job，各自编写 Jenkins Job 的配置，以及手动触发构建。关于知乎应用平台团队基于 Jenkins Pipeline 和 Docker 打造了一套持续集成系统。Jenkins Master 和 Slave 基于 Docker...

2018-10-15 10:54:52 845

转载基于Wide & Deep Learning的推荐系统

我们先来看下Google Inc的paper：Wide & Deep Learning for Recommender Systems。一、介绍推荐系统可以看成是一个搜索排序系统，其中输入的query是一个用户和上下文的集合，输出是一个item列表。给定一个query，推荐任务就是在数据库中找到相关的items，接着基于目标（比如：点击or购买）去对items进行排序。推荐系统...

2018-10-12 17:53:45 5063

转载构建并用 TensorFlow Serving 部署 Wide & Deep 模型

Wide & Deep 模型是谷歌在 2016 年发表的论文中所提到的模型。在论文中，谷歌将 LR 模型与深度神经网络结合在一起作为 Google Play 的推荐获得了一定的效果。在这篇论文后，Youtube，美团等公司也进行了相应的尝试并公开了他们的工作（相关链接请看本文底部）官方提供的 Wide & Deep 模型的（简称，WD 模型）教程都是使用 TensorFl...

2018-10-12 17:10:46 339

转载数十种TensorFlow实现案例汇集：代码+笔记

这是使用 TensorFlow 实现流行的机器学习算法的教程汇集。本汇集的目标是让读者可以轻松通过案例深入 TensorFlow。这些案例适合那些想要清晰简明的 TensorFlow 实现案例的初学者。本教程还包含了笔记和带有注解的代码。项目地址：https://github.com/aymericdamien/TensorFlow-Examples 教程索引0 - 先决条件...

2018-10-12 16:43:18 461

转载简单易学的深度学习算法：Wide & Deep Learning

1、背景本文提出Wide & Deep模型，旨在使得训练得到的模型能够同时获得记忆（memorization）和泛化（generalization）能力：记忆（memorization）即从历史数据中发现item或者特征之间的相关性。泛化（generalization）即相关性的传递，发现在历史数据中很少或者没有出现的新的特征组合。在推荐系统中，记忆体现的准确性，而泛化体现的是新...

2018-10-12 16:38:34 740

转载读完这篇文章，就基本搞定了Redis数据库

另外，Redis 也经常用来做分布式锁。Redis 提供了多种数据类型来支持不同的业务场景。除此之外，Redis 支持事务、持久化、LUA 脚本、LRU 驱动事件、多种集群方案。本文将从以下几个方面全面解读 Redis：为什么要用 Redis / 为什么要用缓存为什么要用 Redis 而不用 map/guava 做缓存 Redis 和 Memcached 的区别 Redis ...

2018-10-12 16:01:10 556

转载步步深入MySQL：架构->查询执行流程->SQL解析顺序

一、前言一直是想知道一条SQL语句是怎么被执行的，它执行的顺序是怎样的，然后查看总结各方资料，就有了下面这一篇博文了。本文将从MySQL总体架构--->查询执行流程--->语句执行顺序来探讨一下其中的知识。二、MySQL架构总览架构最好看图，再配上必要的说明文字。下图根据参考书籍中一图为原本，再在其上添加上了自己的理解。从上图中我们可以看到，整个架构分为两层...

2018-10-12 15:39:45 127

转载 MySQL死锁分析

为什么要懂数据库锁?通常来说对于一般的开发人员，在使用数据库的时候一般懂点 DQL(select)，DML(insert，update，delete)就够了。小明是一个刚刚毕业在互联网公司工作的 Java 开发工程师，平常的工作就是完成 PM 的需求。当然在完成需求的同时肯定逃脱不了 Spring，Spring MVC，Mybatis 的那一套框架，所以一般来说 SQL 还是自己手写，...

2018-10-12 15:33:07 676

转载 CTR预估算法之FM, FFM, DeepFM及实践

目录目录 CTR预估综述 Factorization Machines(FM) 算法原理代码实现 Field-aware Factorization Machines(FFM) 算法原理代码实现 Deep FM 算法原理代码实现参考文献 CTR预估综述点击率(Click through rate)是点击特定链接的用户与查看...

2018-10-09 14:44:36 2327

转载【十大经典数据挖掘算法】PageRank

作者简介：Treant 人工智能爱好者社区专栏作者博客专栏：https://www.cnblogs.com/en-heng 引言PageRank是Sergey Brin与Larry Page于1998年在WWW7会议上提出来的，用来解决链接分析中网页排名的问题。在衡量一个网页的排名，直觉告诉我们：当一个网页被更多网页所链接时，其排名会越靠前；排名高的网页应具有更大的表决权，即...

2018-10-09 13:41:54 2167

转载推荐系统遇上深度学习(二十二):DeepFM升级版XDeepFM模型强势来袭！

今天我们要学习的模型是xDeepFM模型，论文地址为：https://arxiv.org/abs/1803.05170。文中包含我个人的一些理解，如有不对的地方，欢迎大家指正！废话不多说，我们进入正题！1、引言对于预测性的系统来说，特征工程起到了至关重要的作用。特征工程中，挖掘交叉特征是至关重要的。交叉特征指的是两个或多个原始特征之间的交叉组合。例如，在新闻推荐场景中，一个三阶交叉特征为A...

2018-10-09 13:37:58 2544 1

hadoop-windows

Z-Stack API

《Z-Stack API 接口》中文版

空空如也