liuwei063608的专栏

刘伟的随笔

感悟人生之欲望

今年又换工作了,为了职业发展,为了钱,为了自己的欲望。还记得刚毕业的青涩的我,那时候真的是为了梦想来到北京,虽然我都忘了那时候的梦想。那时候听着老板的画饼,在一家公司待了三年,还傻傻的相信老板;现在老板的承诺刚有变黄的趋势,自己就找到了退路。不知道是谁打开了欲望的大门,现在的社会真的是物欲横流。可...

2018-04-24 22:23:53

阅读数:3

评论数:0

给自己的忠告

1.怀疑的头脑看待领导的承诺 2.猎头拿的是公司的钱,不是你的,他肯定会夸她推荐的公司 3.全额缴纳社保公积金的公司都不会太差,全部最低缴纳的都不会太好 4.谈薪水月薪base就好,其他的不要抱太大期望 5.时刻保证自己的状态,不要安逸在自己的舒适区...

2018-04-16 15:10:51

阅读数:13

评论数:0

二元分类评估结果优化

需求描述 对于二元分类算法,在训练完模型后,用testData对模型进行评估,可以得到*(score,label)的数据。在存在shreshold的情况下,我们认为score>=shreshold的情况下,该数据为positive*,相反则为negative。进一步得到*(predict...

2018-04-04 15:06:38

阅读数:14

评论数:0

CheckPoint的一些探寻

由于上项目的模块计算部分依赖于spark,那么在spark的使用上,需要针对不同规模和形式的数据,都要能最大限度的做到数据变换,模型计算等计算的稳定性支持。这也是elemental目前急需优化的瓶颈所在。这里,我们针对下面的场景所遇到的问题进行一部分探讨: 在数据规模过大,无法cache到mem...

2018-04-03 16:56:35

阅读数:21

评论数:0

如何只依靠Scala的语言特性实现高逼格的依赖注入

如何只依靠Scala的语言特性实现高逼格的依赖注入 什么是依赖注入? 对象是面向对象世界中的节本组成单元,依赖注入将对象组合在一起。以最简单的方式看,依赖注入所做的事情就是通过构造器或setter方法将依赖注入到对象。 如果使用适当的容器,我们还可以将系统每个组件的依赖都抽取到...

2018-03-28 15:19:03

阅读数:19

评论数:0

性能调优

目 录 12 性能调优 12.1 配置原则 12.2 Manager 12.2.1 提升Manager配置服务参数的效率 12.2.2 根据集群节点数优化Manager配置 12.3 HBase 12.3.1 提升BulkLoad效率 12.3.2 ...

2018-03-28 15:12:50

阅读数:205

评论数:0

spark2.3.0 的agg 方法现在限制数量

spark2.3.0 的agg 方法现在限制数量,30个可以,60个不可以,记录一下 以后agg超过30个之后需要分次处理 原代码 scala val intervalCollectArr = df.agg(cols.toArray.head, cols.toArray....

2018-03-28 14:58:46

阅读数:24

评论数:0

自定义sbt仓库位置并打包给指定路径下的maven仓库

自定义sbt仓库位置并打包给指定路径下的maven仓库 1. 修改sbt仓库 直接修改sbt安装路径下的conf/sbtopts似乎不行 需要修改bin/sbt-launch.jar 用winRAR打开sbt-launch.jar,修改sbt/sbt.boot.propert...

2018-03-23 14:44:19

阅读数:52

评论数:0

常用的数据结构的时间复杂度及实现原理

2018-03-22 11:18:51

阅读数:19

评论数:0

WebSocket在各种框架下的应用

1. 概述WebSocket协议是基于TCP的一种新的网络协议。 它实现了浏览器与服务器全双工(full-duplex)通信——允许服务器主动发送信息给客户端。 最初的http协议不支持服务器端向浏览器主动推送消息,需要各个浏览器安装插件才能支持。 后来随着时代的发展,越来越多的网页端...

2017-12-17 20:30:52

阅读数:126

评论数:0

google guice使用

1. 概述Guice是Google开发的一个轻量级,基于Java5(主要运用泛型与注释特性)的依赖注入框架(IOC)。Guice非常小而且快。Guice是类型安全的,它能够对构造函数,属性,方法(包含任意个参数的任意方法,而不仅仅是setter方法)进行注入。Guice采用Java加注解的方...

2017-11-14 17:39:43

阅读数:137

评论数:0

相似度计算

1. 相似度计算 1.1 概念 从多个维度分析两组数据的相似度,比如大的文本使用word2vec转成向量,类别根据最大的类别数量N拆成n维0或1表示的vector,数值类型归一化之后表示一个维度,然后根据cos、L1、L2等方式计算相似度 1.2 用处 可以用于推荐系统、协同过滤等算法 ...

2017-10-30 17:41:17

阅读数:162

评论数:0

play框架的基本应用

1. 概述目前kmdm项目中有java写的rest服务,今后不再扩展,将迁移到elemental中scala的play服务。 目前我觉得play框架有以下优点 1. 省代码:scala天然的便利性 2. 容易测试:测试用例很容易写 3. 容易部署: 热部署2. 使用2.1 配置文...

2017-10-21 17:09:28

阅读数:234

评论数:1

NLP分词

NLP分词jar包很大,不建议使用maven下载,几百M,直接官网下载 package test import edu.stanford.nlp.ling.{CoreAnnotations, CoreLabel} import edu.stanford.nlp.pipeline.{Annotat...

2017-09-28 12:11:27

阅读数:157

评论数:0

Ansj分词

/** * Created by liuwei on 2017/8/24. */ object AnsjTest { def main(args: Array[String]): Unit = { val string = "test环境服务器启动方式更新为su...

2017-09-25 11:10:11

阅读数:98

评论数:0

聚类LDA

1. 聚类LDA 1.1 概念 LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”...

2017-09-12 16:08:41

阅读数:153

评论数:0

SVD降维

1. SVD降维 1.1 概念 奇异值分解(Singular value decomposition) 现实世界里,为了实现类似特征值分解的计算,我们使用奇异值分解。奇异值分解适用于任何矩阵,如下所示,其中A是一个m*n的矩阵: A=Um∗mΣm∗nVTn∗nA=Um∗mΣm∗nVn∗nT...

2017-08-21 17:23:49

阅读数:290

评论数:0

PCA降维

1. PCA降维 1.1 概念 主成分分析( PrincipalComponent Analysis , PCA )或者主元分析。是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。PCA类训练一个模型,用PCA将向量投射到一个低维度...

2017-07-20 19:05:45

阅读数:249

评论数:0

文本词频TF-IDF

1. 文本词频TF-IDF 1.1 概念 词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。 词语由t表示,文档由d表示,语料库由D表示。词频TF(t,,d)是词语t在文档d中出现的次数。文件频率DF(t,D)是包含词语的文...

2017-07-14 13:55:20

阅读数:140

评论数:0

文本词频Countvectorizer

1. 文本词频Countvectorizer 1.1 概念 CountVectorizer旨在通过计数来将一个文档转换为向量。当不存在先验字典时,Countvectorizer作为Estimator提取词汇进行训练,并生成一个CountVectorizerModel用于存储相应的词汇向量空间。该模...

2017-07-12 14:45:24

阅读数:566

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭