liuwei063608-CSDN博客

原创文本词频Countvectorizer

1. 文本词频Countvectorizer1.1 概念CountVectorizer旨在通过计数来将一个文档转换为向量。当不存在先验字典时，Countvectorizer作为Estimator提取词汇进行训练，并生成一个CountVectorizerModel用于存储相应的词汇向量空间。该模型产生文档关于词语的稀疏表示，其表示可以传递给其他算法，例如LDA。在CountVectori

2017-07-12 14:45:24 3092

原创文本词频Word2Vec

1. 文本词频Word2Vec1.1 概念word2vec就是用一个一层的神经网络(CBOW的本质)把one-hot形式的词向量映射到分布式形式的词向量用来推断总体参数的统计量称为估计量（estimator)当经测定的具体数值代入估计量时，它就是一个具体的数值，称为估计值（estimate) 。an estimator is rule which before weobserv

2017-07-10 11:18:41 1353

原创 K-S正态检验

1. K-S正态检验1.1 概念K-S检验不仅能够检验单个总体是否服从某一理论分布，还能够检验两总体分布是否存在显著差异。其原假设是：两组独立样本来自的两总体的分布无显著差异。这里是以变量值的秩作为分析对象，而非变量值本身。 1.2 用处K-S检验通过对两个分布之间的差异的分析,判断样本的观察结果是否来自制定分布的总体1.3 细节观测数组不一定符合正态分布，需要

2017-06-16 18:34:58 9501

原创 Chi-squared test（卡方检验/χ2检验）

1. Chi-squared test（卡方检验/χ2检验）1.1 概念χ2检验是对分类数据的频数进行分析的统计方法。（统计学第六版中国人女大学出版社 P216）卡方检验是用途非常广的一种假设检验方法，它在分类资料统计推断中的应用，包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。1.2 用处卡方检验就是统计样本的实际观测值与理

2017-06-16 18:33:08 17686

原创 Ttest（T检验）

1. Ttest（T检验）1.1 概念t检验是用t分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著。它与f检验、卡方检验并列。t检验的来历当总体呈正态分布，如果总体标准差未知，而且样本容量检验是用分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著。检验分为单总体检验和双总体检验。1.单总体t检验单总体检验是检验一个样本平均数与一已知的总

2017-05-27 15:31:08 15153

原创 Ftest（F检验）

1. Ftest（F检验）1.1 概念F检验又叫方差齐性检验。在两样本t检验中要用到F检验。从两研究总体中随机抽取样本，要对这两个样本进行比较的时候，首先要判断两总体方差是否相同，即方差齐性。若两总体方差相等，则直接用t检验，若不等，可采用t'检验或变量变换或秩和检验等方法。其中要判断两总体方差是否相等，就可以用F检验。1.2 用处检验两组数据是否存在显著性差异1.3

2017-05-27 15:29:30 20498

原创 akka初学2

这里还有一个更复杂的例子，涉及到两个actor的交互。就像两个人在乒乒乓乓的打乒乓球。两个actor来回的ping pang，直到达到特定的次数才停止。这里定义了两个actor: Ping和Pang。Ping 接收StartMessage和 PongMessage。 StartMessage是一个启动消息，由main对象发送，PongMessage来自Pong actor，

2017-05-12 17:43:06 315

原创 Akka初学1

package akka.scalaimport akka.actor.{Actor, ActorSystem, Props}/** * 定义 AkkaTest1 Actor * Created by liuwei on 2017/5/11. */class AkkaTest1 extends Actor { /** * receive方法定义实现，其中使用了模式

2017-05-12 00:05:06 348

转载 sbt与maven简单对比

sbt vs mavensbt项目用ivy2,可以使用maven的包sbt可以进行增量编译，这个特性还是非常有吸引力，因为scala的编译速度是堪比c++的sbt提供了一个scala的console，并且导入默认的一些包，非常方便的交互sbt在插件上支持的并不是那么好，很多maven中好用的功能，需要用额外的插件，比如mvn dependency:tree ps:最新版的不需要plugin

2017-05-04 19:13:00 1107

原创 F检验 Ftes算法t我的见解

最近在写ftest算法，写一下我对它的理解一般而言，为了确定从样本(sample)统计结果推论至总体时所犯错的概率，我们会利用统计学家所开发的一些统计方法，进行统计检定。通过把所得到的统计检定值，与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较，我们可以知道在多少%的机会下会得到目前的结果。倘若经比较后发现，出现这结果

2017-05-03 16:54:21 3658

转载解读超轻量级DI容器-Guice与Spring框架的区别

依赖注入，DI（Dependency Injection），它的作用自然不必多说，提及DI容器，例如spring，picoContainer，EJB容器等等，近日，google诞生了更轻巧的DI容器……Guice!废话不多讲了，先看看Guice是如何实现注入的吧。定义一个简单的service接口和它的实现吧： public interface MyService {

2017-04-12 14:57:41 3826

原创有返回值和异常的Callable线程

package thread;import java.util.ArrayList;import java.util.concurrent.Callable;import java.util.concurrent.ExecutionException;import java.util.concurrent.ExecutorService;import java.util.concurre

2017-03-31 00:05:47 1258

原创初学scala

package com.lv.testimport java.io.IOExceptionimport java.io.FileNotFoundExceptionimport java.io.FileReaderimport java.io.PrintWriterimport java.io.Fileimport scala.io.Source/** * scala 初学

2017-03-27 00:31:33 226

原创《impala实战》读书笔记

最近公司在用impala，也读了贾传青的《impala实战》，总结下impala1.最大的优点，cdh中和hive共用元数据，但是sql查询速度比hive处理快很多，目测最少能节省一半的查询速度2.没有使用MapReduce进行并行计算，中间结果不存入硬盘，impala更注重内存和网络IO的利用3.缺点可能是需要注意机器的内存资源4.要想查的快也需要分区，一般用常用字段进行分区

2017-03-23 14:04:39 403

原创大数据集群间数据由hbase到impala

10.0.0.11创建测试表create 'LV_TEST',{NAME =>'cf' ,BLOOMFILTER => 'ROW',COMPRESSION => 'SNAPPY',VERSIONS => 1}插入测试数据put 'LV_TEST','rowkey001','cf:name','zhangsan'put 'LV_TEST','rowkey001','cf:age'

2017-03-02 18:52:43 947

原创 hdfs java操作

hdfs java操作package hdfs;import java.io.FileInputStream;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.had

2016-12-22 20:37:34 364

原创最近两年的总结

好久没写总结了，最近两年养宝宝，跳槽，买房，装修，从java微转型到大数据，似乎完成了好多事，随便总结下吧。1.对linux系统了解变深，从以前只会解压包，配环境变量、安装JDK、tomcat到现在半天装机近十台，搭建各种软件的linux版本，安装各种大数据环境2.职业生涯技术选型的小变化，从J2EE到大数据，虽然都是java，但不可否认这是一次比较正确的选择

2016-12-21 19:00:11 353

原创产品被批，随便写俩字

今天的项目组产品发布会整体组被呲儿了一顿，在上家公司也自己做过产品，结果半死不活的，回顾一下现在自己组的产品，和做项目相比，自己做产品面临的问题1.方向问题，目标很难量化，目的不明确；做项目今天完成什么内容，明天改什么bug，后天写个文档，和客户沟通下需求，只是身体累；做产品是心累2.计划问题，制定不出什么有效计划，和公司已有的产品找不到什么结合点3.老觉得自己

2016-12-21 18:40:40 368

原创《大国大城》读书笔记

这两天读了本书《大国大城》，写得非常不错，记了些笔记1.任何大国的存在，都是因为这个国家的人民愿意通过协调地区间的矛盾来追求全体人民的公共利益，而这个公共利益在更小的国家不能实现。2.经济规模导致专业化，专业化有进一步产生学习效应。3.一个国家政策追求的三个目标（不可能三角）国家的统一；经济效率的提高；区域间的平衡发展4.如果房价主要有需求推动的，那么，房价反应收入，这样的高房

2016-12-19 17:25:35 2513

原创 CDH SQOOP 2实例

1. CDH sqoop2环境搭建添加服务，选择sqoop2，然后下一步，遇到错误修改错误。2. 脚本命令查看参考 http://sqoop.apache.org/http://sqoop.apache.org/docs/1.99.5/Sqoop5MinutesDemo.html 2.1 查看连接show connector CDH5.5

2016-12-13 15:39:25 4240 1

原创流计算浅谈

流计算浅谈流计算是什么？这个概念是和普通的计算区分的。普通的计算是通过 ETL 程序清洗上报的数据，然后把数据存入 HDFS，通过 MapReduce 的批处理 Job /Task对数据进行分区、分类、排序、计算等操作。，然后再通过quartz 定时调度任务，将Hbase数据做统计聚合至前台页面，然后为业务人员提供数据查询、钻取和分析的功能。但是 MapReduce

2016-11-30 17:55:11 758

原创 kafka 设置auto.offset.reset

当不同group中，如果consumer第一次启动时候，在zookeeper中没有初始的offset（读取的offset，不是logfile 的offset），或者offset过大，那么设置smallest和largest才有效，如果smallest重新0开始读取，如果是largest从logfile的offset读取。一般情况下我们都是设置smallest

2016-10-18 16:03:23 10601

原创 hortonworks ambari集成impala

1.下载ambari-impala-servicesudo git clone https://github.com/cas-bigdatalab/ambari-impala-service.git /var/lib/ambari-server/resources/stacks/HDP/2.4/services/IMPALA2./etc/yum.repos.d新建impala.r

2016-10-11 14:36:54 3754 1

原创 hortonworks HDP集群安装

原来公司的大数据服务器都是CDH，这次客户要求用HDP，记录一下环境安装的过程第一部分和CDH安装基本相同，都是做准备工作1.准备工作1.1.SSH免密码登录通过配置rsa等配置免密码登陆1.2.修改host10.0.0.21 server2110.0.0.22 server2210.0.0.23 server2310.0.0.24 server241.3时

2016-10-08 17:38:29 3754 2

原创 linux环境下安装svn

1.在线安装软件yum install -y subversion查看安装的版本svnserve --version2.创建目录mkdir /svn确定svn安装目录svnadmin create /svn/spider3.修改以下配置文件cd /svn/spider/conf（1）svnserve.conf： svn服务配置文件下。（

2016-09-12 14:19:43 358

原创 mapreduce里程计算的一个简单的reduce计算demo

下面是一个里程计算的简单mapreduce实现1.rowkey设计：每一小时用一个rowkey，每分钟一个column，每10s中一条GPS protobuf数据2.将每小时的设备GPS数据计算出设备每个小时的行驶里程。3.将里程结果存到本rowkey一个新的column字段 public void reduce(ImmutableBytesWritable

2016-09-09 16:42:37 874

原创解决IO性能问题的三种方案

解决IO性能问题的三种方案1.使用SSD作为文件读写的存储设备2.如果有足够的内存，创建RAM磁盘3.使用并行和集群技术

2016-07-11 11:31:37 1772

原创 kafka保证消息交付

消息交付保证1. kafka对消息的重复、丢失、错误以及顺序型没有严格的要求。2. kafka提供at-least-once delivery,即当consumer宕机后，有些消息可能会被重复delivery。3. 因每个partition只会被consumer group内的一个consumer消费，故kafka保证每个partition内的消息会被顺序的订阅。4. Kafk

2016-07-07 16:46:26 556

原创垃圾新浪微博

本人微博密码和任何密码都不相同微博号被盗了，自动发微博，关注别人，转发消息~~~不知道是新浪问题还是谁的问题

2016-06-28 14:50:32 534

转载 Impala与Hive的比较

1. Impala架构 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，Impala没有再使用缓慢的Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从

2016-06-23 15:03:51 290

转载 Hadoop 通用数据摄取框架 Gobblin

Gobblin 是 Hadoop 通用数据摄取框架，可以从各种数据源中提取，转换和加载海量数据。比如：数据库，rest APIs，filers，等等。Gobblin 处理日常规划任务需要所有数据摄取 ETLs，包括作业/任务规划，任务分配，错误处理，状态管理，数据质量检测，数据发布等等。Gobblin 通过同样的执行框架从不同数据源摄取数据，在同一个地方管理所有不同数据源的元数据。同时结合

2016-06-20 16:51:21 737

转载 Hadoop中HDFS常用命令

hadoop fs -mkdir /tmp/input 在HDFS上新建文件夹 hadoop fs -put input1.txt /tmp/input 把本地文件input1.txt传到HDFS的/tmp/input目录下 hadoop fs -get input1.txt /tmp/input/input1.txt 把HDFS文件拉到本

2016-06-15 11:47:57 346

原创 Collections shuffle 随机排序

随机排序除了Random之外Collections shuffle非常方便List clouds=new ArrayList6); Collctions.shuffle(clouds); 司都年会抽奖，原来java中，容易忽略的是shuffle，它居然可以实现随机打乱列表的功能，比如象一些blog中的标签云之类的，实现把员工抽奖顺序打乱等，还有

2016-06-15 10:42:17 2630 1

好久没写博客了，是因为工作忙，还是自己变懒了呀，成天改bug挺消磨工作激情的，项目上线了出现了各种各样的bug，二期项目都做快完了，一期还在不停地出现bug，还要不停的进行维护，那堆烂代码想重构有没有足够的时间，抽时间有没有足够的数据验证。比较烦，今天没啥事到这来发发牢骚，公司和部门之间的利益纠缠，部门老大答应给组员的调薪没戏，马上就要面对我们小组的人员动荡，唉，今年三四月份面了一堆人也没招来一个

2016-06-13 10:55:07 488

原创 redission java.lang.NoSuchFieldError: WRITE_BIGDECIMAL_AS_PLAIN

这个问题出现的原因是jar包冲突redission依赖的jackson和项目中已有的jackson版本不同需要到mvnrepository.com找到当前版本redission对应的jackson版本如 2.2.5对应2.6.3

2016-02-19 15:39:45 2308

原创 cdh kafka环境搭建

3.上传以下文件4.按照http://www.tuicool.com/articles/ENjmeaY安装cdh和kafka

2016-02-17 14:08:18 1949

原创 centos挂载SSD

原来系统装在SSD上，现在准备在hdd上在系统，SSD用于kafka存放数据，增加kafka的数据插入IO速度此步骤为kafka准备工作空间1.1 找出SSDfdisk –l1.2 挂载硬盘fdisk /dev/sdan p 1 34defaultwq1.3 格式化SSDmkfs.ext4/dev/sda1.4 Mountmkdir /kafka

2016-01-15 13:46:45 3190

原创 IBM CentOS7系统安装

图太多，csdn传图不方便，图略1. 刻录光盘1.1 网站上下载好CentOS-7.0-1406-x86_64-DVD.iso1.2 使用urtraIso将CentOS-7.0-1406-x86_64-DVD.iso刻录到光盘中 2. 进入WebBiso2.1 将光盘插入服务器光驱或者外置光驱，启动系统，点击·F12.2 选择System Setting

2016-01-15 13:24:41 7942

转载 redis主从集群搭建及容灾部署

转自http://www.cnblogs.com/linuxbug/p/5131504.htmlRedis也用了一段时间了，记录一下相关集群搭建及配置详解，方便后续使用查阅。提纲l Redis安装l 整体架构l Redis主从结构搭建l Redis容灾部署（哨兵sentinel）l Redis常见问题Redis安装发行版：CentOS-6.6

2016-01-14 20:46:23 7142

车联网平台.ppt

代码review.ppt

JMS学习.ppt

groovy学习ppt

eclipse 注释模版

ZK+Spring+Hibernate项目搭建

空空如也