a_victory-CSDN博客

原创数据挖掘学习（三）

Kaggle的Titanic数据分析——————————————(学习使用方法，重在运用) 特征分析与选择特征工程1 一般方法：1、读取训练集和测试集为 DataFrame；2、训练集数据（head查看）（配合字段含义）（info可以看到有缺失值的列）（describe，mean字段等查看具体数据数值）3、数据清洗，（drop去除 PassengerId、Name、Ticket 字

2017-06-05 16:30:05 1255

原创数据挖掘学习（二）

1、train.csv 这里采用的数据集来自于Kaggle | Allstate Claims Severity比赛，这里的训练集如下所示，有116个离散特征（cat1-cat116）,14个连续特征（cont1 -cont14）2、xgboost代码分析import numpy as np import pandas as pd import xgboost as xgb impor

2017-06-02 15:51:21 690

类别特征处理1、利用pd.get_dummies方法将类别特征进行编码。使用get_dummies进行one-hot编码（查看时间字段的类型，如果不是datetime类型需要to_datetime转化）例如：下面代码实现对age字段的转化，其中convert_age为转化函数，将对应的age、sex、user_lv进行one-hot编码，并concat一起，dump保存。user['age'].ma

2017-06-02 10:32:43 3211

原创 Mule总结(初)

What is Mule?一个以Java为核心的轻量级的消息框架和整合平台。它使得开发人员可以快速，简单的连接多个应用。目前许多公司都使用了Mule，比如Walmart,HP,Sony,Deutsche Bank 以及 CitiBank等公司。Mule基于Enterprise Service Bus(ESB)架构思想。ESB的主要特性是通过扮演一个中转系统的角色，允许不同的应用系统交互，中转系统在内

2017-04-17 22:10:04 11350 2

转载 Spark进阶（八）

分类+回归+聚类+协同过滤 1 分类算法分类算法属于监督式学习，使用类标签已知的样本建立一个分类函数或分类模型，应用分类模型，能把数据库中的类标签未知的数据进行归类。分类在数据挖掘中是一项重要的任务，目前在商业上应用最多，常见的典型应用场景有流失预测、精确营销、客户获取、个性偏好等。 MLlib 目前支持分类算法有：逻辑回归、支持向量机、朴素贝叶斯和决策树。案例：导入训练数据集，然后在训练集

2017-03-31 09:34:35 726

原创 Spark进阶（七）

hive使用案例 Spark进阶（六）安装好了hive的远程模式。 Continue： http://www.sogou.com/labs/resource/q.php 中下载gz格式 //SogouQ1.txt、SogouQ2.txt、SogouQ3.txt分别是用head -n 或者tail -n 从SogouQ数据日志文件中截取//访问时间\t用户ID\t[查询词]\t该URL在返回结

2017-03-29 10:53:40 522

原创 Spark进阶（六）

SparkSQL 运行架构 && hive 的安装实践 TreeNode 体系Logical Plans 、Expressions 、Physical Operators 都可以使用Tree 表示 – TreeNode 具备一些scala collection 的操作能力和树遍历能力，树的修改是以替换已有节点的方式进行的。 – TreeNode ，内部带一个children: Seq[Base

2017-03-28 22:43:18 586

原创 java(三)

空判断list == null || list.isEmpty()isNull()和containsKey()使用场景如何判断json里面某个key存不存在org.json.JSONObject的!json.isNull("XXX") net.sf.json.JSONObject的json.containsKey("XXX") 查看后台的logs情况cd logstail -f catalin

2017-03-27 22:22:08 305

原创 Java（二）

final常量+staticpublic static final int AGE_0F_PERSON = 20;ListArrayList list = new ArrayList();list.add list.get(0) size() addLast() getFirst() removeFirst()* 类型转化处理* String.valueOf(XXX);转化为String类型

2017-03-27 18:15:30 291

原创 java（一）

异常 NullpointException（空指针异常） ClassNotFoundException（类找不到异常） ClassCastException（类型转换异常） IllegalArgumentException（非法参数异常） ArithmeticException（算术异常） NumberFormatException（数据格式异常） In

2017-03-27 11:42:39 530

转载 spark进阶（五）

Spark StreamingSparkStreaming框架计算流程：Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark，也就是把Spark Streaming的输入数据按照batch size（如1秒）分成一段一段的数据（Discretized Stream），每一段数据都转换成Spark中的RDD（Resilient Distributed D

2017-03-24 10:36:17 554

原创 Spark进阶（四）

1.Spark与MySQL或者其他的关系型数据库package scalaimport java.sql.{DriverManager, PreparedStatement, Connection}import org.apache.spark.{SparkContext, SparkConf}object RDDtoMysql {//这里按需设置数据库Blog表 case class Blo

2017-03-23 17:14:07 600

转载 Hbase学习笔记（一）

HBase表数据分页处理1、HBase表数据分页模型类import java.io.Serializable;import java.text.DecimalFormat;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.hbase.client.Result;public class HBa

2017-03-23 15:32:34 655

转载 hadoop学习笔记（一）

Hadoop之FileSystem文件的操作//读数据 Hadoop中的IOUtils类的两个静态方法： 1）IOUtils.copyBytes()，其中in表示拷贝源，System.out表示拷贝目的地（也就是要拷贝到标准输出中去），4096表示用来拷贝的buffer大小，false表明拷贝完成后我们并不关闭拷贝源可拷贝目的地（因为System.out并不需要关闭，in可以在finally语

2017-03-23 11:53:08 920

转载 Spark进阶（三）

客户端模式和集群模式的区别这里我们要区分一下什么是客户端模式（client mode），什么是集群模式（cluster mode）。我们知道，当在YARN上运行Spark作业时，每个Spark executor作为一个YARN容器(container)运行。Spark可以使得多个Tasks在同一个容器(container)里面运行。 yarn-cluster和yarn-client模式的区别其

2017-03-23 10:14:03 645

原创 Spark进阶（二）

Spark Stream将Stream数据分成小的时间片段，以类似batch批处理的方式来处理这一部分数据，兼容实时数据处理的逻辑和算法和兼容批量处理。Spark MLlibSparkSQL1.MapReduce计算过程大量的磁盘落地消耗了大量的io，降低运行效率。此时shark应运而生，同期的还有Impala和Drill。shark（在hive的基础上，把HQL翻译成Spark的RDD操作。实现基

2017-03-16 12:05:29 709

原创 Spark进阶（一）

Hadoop与Spark的区别搜狗文件分析例子以交互的方式：val rdd = sc.textFile("/input/SogouQ.reduced")① ⽤户在00:00:00到12:00:00之间的查询数？以本地的模式：package cn.chinahadoop.scalaimport org.apache.spark.{SparkContext, SparkConf} obje

2017-03-15 16:31:08 665

原创 Spark学习笔记（八）

GRAPHX -SPARK上的统一图表分析许多图形并行算法协作过滤交替最小二乘法随机梯度下降张量因式分解结构化预测 Loopy Belief Propagation 最大产品线性计划吉布斯取样半监督ML 图形SSL CoEM社区检测三角计数 K-core分解 K-Truss图表分析 PageRank 个性化P

2017-03-09 16:08:02 399

原创 Spark学习笔记（七）

本文目的:正式化RDD概念Spark应用程序的生命过程性能调试正式化RDD概念科学定义RDD 是一个接口 1.分区的集合 2.对父RDD的依赖性列表 3.计算分区的函数（作为迭代器）示例：HadoopRDD and Filtered RDD RDD Graph (DAG of tasks) 同时，每一RDD包括5个部分（1.分区2.依赖3.计算4.（可选）分割器5.首选

2017-03-09 14:59:13 381

原创 Spark学习笔记（六）

Json-SparkSQL JSON的流行特点：简单，重点内容紧凑，易于阅读灵活的模式每个JSON对象都是自描述的Web服务之间的的数据交换格式例如：Facebook和Twitter API高度用于移动和Web应用程序开发大量的JSON数据集JSON的灵活性使得生成JSON数据集变得容易，But，JSON的灵活性使得难以分析JSON数据集。Difference： - 定义模

2017-03-09 11:51:03 321

原创 Spark学习笔记（五）

MLlib for SparkK-means 1.K-means (scala)// Load and parse the data.val data = sc.textFile("kmeans_data.txt")val parsedData = data.map(_.split(‘ ').map(_.toDouble)).cache()// Cluster the data i

2017-03-09 10:57:58 465

原创 Spark学习笔记（四）

为什么理解Spark内部？目标：查找每个“第一个字母”的不同名称的数量给出一种代码： sc.textFile(“hdfs:/names”) .map(name => (name.charAt(0), name)) .groupByKey() .mapValues(names => names.toSet.size) .collect() 最后执

2017-03-09 09:50:54 357

原创 Spark学习笔记（三）

Job提交下图展⽰示了driver program（假设在 master node 上运⾏行）如何⽣生成 job，并提交到 worker node 上执行。当用户的 program 调用val sc = new SparkContext(sparkConf) 时，这个语句会帮助 program 启动诸多有关 driver 通信、job 执行的对象、线程、actor等，该语句确立了progr

2017-03-08 22:32:41 332

原创 Spark学习笔记（二）

部署图从部署图中可以看到整个集群分为 Master 节点和 Worker 节点，相当于 Hadoop 的 Master 和 Slave 节点。 Master节点上常驻 Master 守护进程，负责管理全部的Worker 节点。 Worker 节点上常驻 Worker 守护进程，负责与Master 节点通信并管理 executors。Application 就是用户自己写的 Spark

2017-03-08 21:56:31 315

原创 Spark学习笔记(一)

Spark简介基于内存的集群计算框架，用scala程序编写近实时计算迭代 DAG(一)spark的关键组件 1. Master 2. Worker 3. SparkContext(客户端) 4. CoarseGrainedExecutorBackend(standalone模式)（二）产生Rdd的三种API Rdd：计算单元，定义了输入输出类型以及算法转化（tran

2017-03-08 17:30:28 452

原创 zookeeper

（一）Zookeeper基础知识、体系结构、数据模型1 ZooKeeper 是一个高可用的分布式数据管理不系统协调框架。基于对 Paxos 算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得 ZooKeeper 解决很多分布式问题。zookeeper是一个类似hdfs的树形文件结构，zookeeper可以用来保证数据在(zk)集群之间的数据的事务性一致、

2016-12-14 16:28:12 428

原创表单提交数据以及后台存储小结

一、表单页面分析1，提交的参数：表单的内容//ajax的post方式提交表单//$("form").serialize()将表单序列号为key-value的形式的字符串//（这里注意，在form之中的input里需要增加 name）$.post("/item/save",$("form").serialize(),function(data)){}

2016-12-14 14:19:58 4870

原创 SpringMVC

一、Dao层：整合mybatis和spring（applicationContext.xml）需要的jar包：1、mybatis的jar包2、Mysql数据库驱动3、数据库连接池 classpath*:application.properties

2016-12-14 09:14:50 457

原创 CentOS上配置ssh区别于ubuntu的地方

1，Ubuntu与CentOs在部署hadoop的区别使用Ubuntu，只需要ssh-keygen -t dsa -f ~/.ssh/id_dsacat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys在centos下，仅仅上述操作是不行的，还需要如下步骤：sudo vi /etc/ssh/sshd_configRSAAuthe

2016-12-05 17:34:21 424

原创 CentOS下安装Hadoop伪分布集群踏坑之路

1.hadoop/etc/hadoop下的配置文件core-site.xmlfs.defaultFShdfs://master:9000io.file.buffer.size131072hadoop.tmp.dirfile:/usr/hadoop/tempAbase for other temporary directories.

2016-12-02 17:54:26 530 1

a_victory的博客