- 博客(114)
- 资源 (1)
- 收藏
- 关注
原创 大数据风控实践
风险管理框架大数据风控实践课程第1章 概述1.1 大数据风控框架第2章 反欺诈2.1 身份核验与黑名单 2.2 设备指纹(代码) 2.3 关联风险评分(代码) 2.4 社区发现(代码)第3章 评分卡3.1 单特征bad rate (代码) 3.2 数值特征 Binning (代码) 3.3 特征交叉 Feature Crossing (代码) 3.4 ...
2020-01-26 14:06:10 490
原创 大数据风控实践 - 反欺诈之设备指纹
很多人看见指纹两个字,认为是有特定的设备仪器来采集,类似人的指纹。设备指纹里的指纹换成ID(唯一标识)更合适。强ID-手机出厂/使用自带的唯一标识设备指纹-弱特征生成唯一标识设备指纹生成在git上搜索device fingerprint 能找到不少开源项目,比如clientjs中设备指纹代码: getFingerprint: functio...
2020-02-06 09:56:49 1373
原创 Mac 下python 连接 oracle
下载oracle clienthttps://www.oracle.com/database/technologies/instant-client/macos-intel-x86-downloads.html解压mkdir -p /opt/oracleunzip instantclient-basic-macos.x64-19.3.0.0.0dbru.zipmkdir...
2020-02-04 18:37:45 1152
原创 scala implicit - implicit parameters spark 应用
语法class PreferredPrompt(val preference: String)object Greeter { def greet(name:String)(implicit prompt: PreferredPrompt) { println("Welcome, " + name + ". Thee systeme is ready.") ...
2020-02-03 18:45:14 321
原创 spark sql concat_ws 实现有序
spark(hive) sql中的concat_ws 有两个易出错的地方无序 忽略Nullconcat_ws 有序下面示例生成用户的行为序列,按时间有序方法一:使用 window partition+ row_numberSELECT * FROM ( SELECT user_id , concat_ws(' ', c...
2020-02-02 17:05:40 3582
原创 hive 查看历史job的执行sql
问题线上hadoop有个hivesql执行较耗时,1hour 8min;收到运维预警定位查找job history 页面http://node:8088/cluster/app/application_xxxx_xxhttp://node:8088/proxy/application_xxxx_xxhttp://node:19888/jobhistory/jo...
2020-02-01 14:41:14 4041
原创 java finalize 方法引发的内存泄露
java finalize 方法引发的内存泄露Posted: Mon, 11 Mar 2013java 内存dump 内存dump后,大量的内存(>5G) 被 java.lang.ref.Finalizer hold 住(见图1)。 而这些内存是BDB占用,怀疑是BDB有内存泄露(见图2)。java finalizer 机制 为什么会是 java
2013-03-12 18:44:42 11137
原创 Windows7 硬盘安装 Ubuntu11.10 问题小记
还在使用Wubi,you are out。看看windows7如何使用硬盘安装 Ubuntu11.10参考http://www.linuxsight.com/blog/2910问题1选择 NeoGrub Bootloader 进入下一步ubuntu install后 Error15 : File not found回到windows7,修改NeoGrub 的
2012-04-06 10:10:04 2580
原创 编程学习:循环数组元素查找
前言小侄子在华中科技大学念书,从今天开始,我教他编程。下面是第一堂课。Btw, I need figure out the answer before him, :)题目1) 给定一个有序数组,查找指定元素e的位置。 如果e存在,则返回其所在位置(有相同元素,则任意一位置)。 如果e不存在,则返回其插入位置 -插入位置-12) 条件同上,如果e
2012-03-03 22:57:53 1455
原创 Java GC 调试手记
摘要本文记录GC调试的一次实验过程和结果。GC知识要点回顾问题1:为什么要调试GC参数?在32核处理器的系统上,10%的GC时间导致75%的吞吐量损失。所以在大型系统上,调试GC是以小博大的不错选择。'small improvements in reducing such a bottleneck can produce large gains in performance.'
2012-02-02 13:45:09 33989 1
原创 axis2 client memory leak
axis2 client memory leak,还有比axis2 更坑人的开源项目吗Axis2 client memory leakView more presentations from Alexander Lee
2012-01-16 16:39:54 1528
原创 12306 的问题
关于12306的性能问题,是个技术人员都免不了吐几口吐沫星子。我也是,而且好好体验了一把。电话点票一个半小时,无果。电脑点票共三次,共计6小时左右,成功订票7张;外加失败订单2次,支付超时;登录成功若干次。12306的用户体验从用户的角度来看,12306订票有四关登陆。用户需要反复输入用户名,密码,验证码。使用FireFox插件,只需输入验证码。验证码有时不清晰,需要刷新更换。
2012-01-13 15:16:54 8238
原创 A story of OS file cache in MySql
问题在一次Sql语句的测试中,我们发现一个有趣的现象:同一个测试数据集,第一次run相当的慢(average超过100ms);第二次及后面的run都很快,而且也很稳定(average 4ms)。sql 如下select * from table where node_index in (?, ?. ...?)每次测试跑10k条上面的sql,不同的参数wh
2012-01-11 16:55:59 1195
原创 Hilbert 曲线
问题一POI(Point of Interest)数据库每天都有增量的数据更新进来,对每个新增的poi必须进行dedup(去重)。即在已有库中查找是否有匹配的poi。解决找是否匹配的POI,当然不可能把所有的数据(几千万的点)全部取出来一一匹配。所以通用的做法是按距离进行过滤,只取当前点一定范围内的点。这是一个典型的空间索引的问题(Spatial index)。空间索引有R-Tree,
2012-01-09 16:33:33 11054 3
原创 My Hadoop: Hadoop 0.23 setup
1 Download choose a mirror http://www.apache.org/dyn/closer.cgi/hadoop/core/download from renren for 0.23 version: hadoop-0.23.0.tar.gz 1.1 untar tar zxfv hadoop-0.23.0.tar.gz2 Run first had
2011-12-27 14:14:44 3168
原创 Happy Apache Cassandra 3: Monitor
http://wiki.apache.org/cassandra/Operations#Monitoringbin/cassandra-cli -h hostbin/nodetool -h host cfstatsbin/nodetool -h host tpstatsJMXJConsole/JVisuialVM host:7199 (MBean)MX4
2011-12-14 17:02:38 1478
翻译 为什么java如此招人厌恶-Quora版
http://article.yeeyan.org/view/86510/233518Sergei Turin, EECS student at Cal (引用了很多其他人的话)199 votes by Shaan Batra, Hiroshi Ono, Horia Tu, (more)java中难以看到优雅的代码实现,有时你遍读源码,只能发现一个优雅的函数,只是一
2011-12-04 16:04:00 2075
原创 Happy Apache Cassandra 2: File Store Format
h3. Model ReviewCassandra data modelColumn FamilySuper Column Familyh3. File Formath4. KeyspaceEach Keyspace(Eg. Lobs)in separated directoryEach ColumnFamily(Eg. obje
2011-11-28 14:37:57 7015
原创 Happy Apache Cassandra 1: Setup
Cassandra SetupSetup CassandraGettingStartedSingle NodeDownload tar xvf cassandra-*.tar.gz conf/cassandra.yamldata_file_directories: ./datacommitlog_directory: ./commitlogsaved_cache
2011-11-25 21:19:42 1296
原创 java generic super/extends (java 泛型中的super/extends)
在最新的ConcurrentHashMap中有这么一个方法声明 @SuppressWarnings("unchecked") public V computeIfAbsent(K key, MappingFunction mappingFunction) { if (key == null || mappingFunction == null)
2011-11-18 11:08:02 2648
原创 产品issue 诊断:Java CPU/Memory- Caused by JAX-WS Client
Background我们有个组件使用JAX-WS client来call另外一个组件的web service。新的release发布后,立马出现了cpu issue。Cpu issue截图如下(来自Cacti)经调查发现,是因为我们的Stub对象创建过于频繁所致。每次API调用,都会新建一个Stub对象(创建代码如下)。而JAX-WS Stub对象的创建是cpu-s
2011-11-15 18:14:56 1957
原创 An introduction to Java-concurrency
An introduction to Java-concurrencyEffective java - concurrencyView more presentations from leefs
2011-10-10 17:42:34 750
原创 java Atomic 包实现
AtomicIntegergetAndSet:设置为新值,返回设置之前的值。此方法为原子性操作,即保证在得到当前值与设置新值之间,没有任何其他更新操作。 public final int getAndSet(int newValue) { for
2011-08-24 23:12:46 1991
原创 神秘的java Https (1)
说起网络安全,最基本的策略就是走https。https仿佛一条神秘通道,有了它,万事无忧。究竟什么是https?如何实现https? 本文将揭开https的神秘面纱。WTF https万事皆有源头。什么是https?首先从安全性需求说起,5大安全需求
2011-08-19 20:21:49 1847
原创 设计中的控制反转(Inverse of Control)
WTF IOC?java面试中经常会碰到如下情景:问:“你用过Spring吗?”答:“用过” 问:"Spring有啥特点“?答:”IOC和AOP" 问:"AOP是啥?怎么实现AOP"?答:"AOP就是面向切面编程,将像log, transaction,
2011-08-15 22:36:25 2863
原创 快来抄吧:Project Plan Template 项目计划模板
Project Plan1. Overview1.1 Goal1.2 Objectives1.3 Outputs2. Key Design Decision3. Activities3.1 Environments/Hardware3.2 Schema
2011-08-11 16:19:54 11329 1
原创 Java ThreadPoolExecutor 线程池 tips 3:动态调整线程池
动态调整线程池统计Sliding windows 统计
2011-08-03 17:51:49 2895 1
原创 Java ThreadPoolExecutor 线程池 tips 2:偷借线程
SEDA (Staged event-driven architecture)
2011-07-31 20:18:32 1734
原创 Java ThreadPoolExecutor 线程池 tips 1:单线程吞吐量来估计系统的线程数目
The thread pool model is as below4 job producer for different carrier (Sprint, Sprint Demo, Nextel, At&t)1 job queue as a buffer (although t
2011-07-24 21:53:20 5741
原创 Apache Torque的关键配置参数 (DBCP)
起因频繁的connection close/open.DBA点名:有个component从3个礼拜前突然开始频率的打开/关闭db的connection,大大抵消了使用connection pool的好处调查经探索发现,该component使用Torque来进行db connect
2011-07-19 14:51:59 2626
原创 JAX-WS Provider (JAXB) 的加载顺序
Problem项目中使用JAX-WS 2.1.4,抛出以下错误 Caused by: java.lang.ClassCastException: com.sun.xml.bind.v2.runtime.JAXBContextImpl cannot be cast to com.sun.xml.internal.bind.api.JAXBRIContext at com.sun.xml.internal.ws.fault.SOAPFaultBuilder.(SOAPFaultBuilder.java
2011-05-21 05:35:00 13456
原创 Maven Vs Ant
Declarative (Maven) and Imperative (Ant) Convention and configuration (Maven) over configuration andscripting (Ant)Maven Good for ModularizationDependency management Not easy for beginner to understandBugs and issues are hard to track (understand the co
2011-05-05 07:25:00 2983
原创 data structure: static linked list / hash linking / an array based linked list
本来是对 CollisionCheckStack数据结构的探究。Push/pop operation.Duplicate check. When an object that's already in the stack is pushed, this class will tell you so.push/pop operation 使用一个数组,在数组尾端(tail)进行操作即可Object[] dataint size;//push oif(data.length == size)
2011-04-10 03:24:00 1760
原创 My understanding of OAuth 1.0
引子网上现在介绍OAuth时,大多是把OAuth core中的3 steps和一张summary图copy过来完事。OAuth Authentication is done in three steps:The Consumer obtains an unauthorized Request Token.The User authorizes the Request Token.The Consumer exchanges the Request Token for an Access Token.有图
2011-03-22 02:27:00 1842
原创 Introduction to JAXB (1)
从Hearbeat说起NOC的兄弟要求所有component有个heartbeat,要求很简单:1) 提供一个http url2) 这个http url 返回xmlServer[ok|fail]Errormsgheartbeat需要check哪些内容,这里不作讨论。我看过的telenav code中,有以下实现:打开一个socket端口(非web app),如果server ok, 返回一个OK的xml字符串。如果失败,返回fail的xml字符串。String ok = '' ...
2011-01-28 17:59:00 3322
原创 A generic JAXB marshal/unmarshal XmlType
引子xsd中的complexType在JAXB中对应XmlType,element在JAXB中对应XmlRootElement。而xml序列化(marshal)和反序列化(unmarshal)的对象是element而不是type,所以在JAXB中XmlType无法被直接序列化,只能通过xsd定义element或者如通过Annotation声明XmlRootElement来完成。比如,我们的xsd中定义为
2011-01-20 13:20:00 4229
原创 Jmock
The principle (物种起源)JMock is a library that supportstest-driven development ofJava code withmock objects.TDDUnit tests are so named because they each test one unitof code. Whether a module of code has hundreds of unit tests or only five is irrelevant.
2011-01-08 21:50:00 4831
原创 七种武器:apache commons : commons-lang
前言有人说apache 就是丐帮,各种开源项目鱼龙混杂,参差不起。今天试着梳理下commons包,首先是commons-lang。看了一眼之后,一个字:杂,有如瑞士军刀,无数用途。如何organize这种类JDK util代码?1) the most interesting in design or implementation2) the most useful 3) see how other developer uses, wrap, rewrite JDK正文 lang.builder.*解决了一个
2011-01-02 12:41:00 7664
原创 maven java.lang.NoClassDefFoundError: org/codehaus/plexus/util/DirectoryScanner
org/codehaus/plexus/util/DirectoryScanner在反复搜索无果之后,我将本来的repository plexus-utils 进行了清空/home/lee/.m2/repository/org/codehaus/plexus/plexus-utils然后一切OKmvn install我对plexus 究竟是啥很好奇,搜了一下,原来是另外一个IOC容器http://www.bluedash.net/spaces/Plexus,Spring之外的IoC容器提到IOC,不得不说号
2010-12-24 21:46:00 8617 1
原创 Hell to Spring AOP : performance Jamon
前言 公司一项目为web型项目,其中一个页面打开花上8-9seconds。要优化,必须的。 首先要找到优化的点所在。在方法开始和结尾处分别使用System.currentTimeMillis(),然后相减固然能得到函数的调用时间。 或者使用cassandra中的latency tracker,都可以。 大哥,你是知道的,我喜欢玩点花活,刚好项目中使用了Spring,所以考虑到了AOP Action JamonPerformanceMonitorInterceptor spring中已经有tra
2010-12-24 17:32:00 4755
Social Networks: Getting Distributed Web Services Done with NoSQL
2010-07-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人