自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

陈杰

专业写Bug

  • 博客(137)
  • 资源 (5)
  • 论坛 (1)
  • 收藏
  • 关注

原创 Spring源码学习(一)DefaultListableBeanFactory

1、示例POJO类用户类User,其中包含一个狗的引用package org.springframework.cn.shu.edu.pojo;public class User { String username; String password; Dog dog; public String getUsername() { retu...

2018-12-17 20:48:55 3744 2

原创 使用Spark的JavaAPI访问局域网中的Spark集群

1、客户端环境Win7 + JDK1.8 + IDEAMeaven配置:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...

2018-05-08 14:41:43 3901

原创 ubuntu中使用docker从零开始搭建hadoop、spark的集群环境

一、Docker环境搭建二、Docker镜像操作查看当前仓库中的镜像docker images远程拉取镜像如果当前本地仓库中没有ubuntu镜像,可以从远程仓库中拉取(https://hub.docker.com)或者使用其他ubuntu镜像,如docker pull daocloud.io/ubuntu使用镜像创建容器使用ubuntu镜像创建一个容器,并进入docker run -it daoc...

2018-04-20 23:05:00 3304 1

原创 在Windows下使用Hadoop 分布式缓存时遇到的bug

错误提示:WARN [main] fs.FileUtil (FileUtil.java:symLink(824)) - Fail to create symbolic links on Windows. The default security settings in Windows disallow non-elevated administrators and all non-administ...

2018-04-08 22:04:55 824

原创 Spark中广播变量的作用(foreach往map添加数据后没有数据)

给定如下代码:import org.apache.spark.{SparkConf, SparkContext}object draft2 { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("评分").setMaster("local") val sc = new ...

2018-04-03 15:50:55 2017 1

原创 向HBase中导入数据3:使用MapReduce从HDFS或本地文件中读取数据并写入HBase(增加使用Reduce批量插入)

前面我们介绍了:向HBase中导入数据1:查询Hive后写入向HBase中导入数据2:使用MapReduce从HDFS或本地文件中读取数据并写入HBase(只使用Map逐条查询)为了提高插入效率,我们在前面只使用map的基础上增加使用reduce,思想是使用map-reduce操作,将rowkey相同的项规约到同一个reduce中,再在reduce中构建put对象实现批量插入测试数据如下:注意到有...

2018-03-16 22:53:53 1228

原创 向HBase中导入数据2:使用MapReduce从HDFS或本地文件中读取数据并写入HBase(只使用Map逐条查询)

一、在HBase中创建空表二、准备好要写入HBase的文件(可能存在HDFS或者本地,需要修改输入文件路径,HDFS使用hdfs://开头,本地文件使用file://开头)例如我有这样一份文件:其保存在HDFS上三、检查能否调用hadoop读取该文件package cn.edu.shu.ces.chenjie.tianyi.hadoop;import java.io.IOException;...

2018-03-16 21:00:28 2637

原创 向HBase中导入数据1:查询Hive后写入

一、前提条件Hive表已经创建好,并且远程访问Hive的代码已写好。Hive表结构如下:create external table clientdata(screen string, model string, userID string, country string, province string, city string, network string, time string) row ...

2018-03-16 20:45:04 1347

原创 使用Java访问远程HBase数据库

package cn.edu.shu.ces.chenjie.tianyi.hbase.utils;import java.io.IOException;import java.text.SimpleDateFormat;import java.util.HashMap;import java.util.Map;import org.apache.commons.lang.String...

2018-03-16 20:41:12 3430 2

原创 HBase 的安装与配置

一、前提条件JDK1.7+Hadoop 2.5.0+Zookeeper 3.4.5+下面介绍一下Zookeeper的安装:(1)到Zookeeper官网下载Zookeeper最新安装包,下载地址:http://mirrors.shu.edu.cn/apache/zookeeper/zookeeper-3.4.11/zookeeper-3.4.11.tar.gz(2)下载完成后使用命令 tar -z...

2018-03-13 11:00:24 26855

原创 Hive on Spark 注意事项

1、hive-site.xml<?xml version="1.0" encoding="UTF-8" standalone="no"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property

2018-02-08 21:39:08 370

原创 安卓查看当前运行App所显示的Activity的包名

1、进入adb所在目录2、按住shift + 鼠标右键,选择在此处打开命令行窗口3、输入adb shell "dumpsys window | grep mCurrentFocus"4、回车,查看结果

2018-02-06 21:40:26 5183

原创 《Spark机器学习》笔记——Spark Streaming 在实时机器学习中的应用

此前我们一直讨论的是批量数据处理,也就是我们所有的分析、特征提取和模型训练都被应用于一组固定不变的数据。这很好地适用于Spark对RDD的核心抽象,即不可变的分布式数据集。尽管可以使用Spark的转换函数和行动算子从原始的RDD创建新RDD,但是RDD一旦创建,其中包含的数据就不会改变。我们的注意力一直集中于批量机器学习模型,训练模型的固定训练集通常表示为一个特征向量(在监督学习模型的例子中是

2018-01-20 19:57:28 4075 1

原创 《Spark机器学习》笔记——Spark应用于数据降维

我们将学习无监督学习模型中降低数据维度的方法。不同于我们之前学习的回归、分类和聚类模型,降维方法并不是用来做模型预测的。降维方法从一个D维的数据输入提取出一个远小于D的k维表示。因此,降维本身是一种预处理方法,或者说特征转换的方法。降维方法中最重要的是:被抽取出的维度表示应该仍能捕捉大部分的原始数据的变化和结构。这源于一个基本思想:大部分数据源包含某种内部结构,这种结构一般来说应该是未知的(常称为

2018-01-18 20:36:12 2060

原创 《Spark机器学习》笔记——Spark构建聚类模型

import breeze.plot.{Figure, hist, plot}import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.linalg.distributed.RowMatriximport o

2018-01-16 21:32:11 776

原创 《Spark机器学习》笔记——Spark回归模型(最小二乘回归、决策树回归,模型性能评估、目标变量变换、参数调优)

数据集说明:数据集下载地址http://archive.ics.uci.edu/ml/machine-learning-databases/00275/Bike-Sharing-Dataset.zip========================================= hour.csv和day.csv都有如下属性,除了hour.csv文件中没有hr属性以外

2018-01-15 21:28:52 1259

原创 《Spark机器学习》笔记——Spark高级文本处理技术(NLP、特征哈希、TF-IDF、朴素贝叶斯多分类、Word2Vec)

import org.apache.spark.mllib.classification.NaiveBayesimport org.apache.spark.mllib.evaluation.MulticlassMetricsimport org.apache.spark.mllib.feature.{HashingTF, IDF, Word2Vec}import org.apache.sp

2018-01-10 21:44:03 2378

原创 《Spark机器学习》笔记——Spark分类模型(线性回归、朴素贝叶斯、决策树、支持向量机)

一、分类模型的种类1.1、线性模型1.1.1、逻辑回归1.2.3、线性支持向量机1.2、朴素贝叶斯模型1.3、决策树模型二、从数据中抽取合适的特征MLlib中的分类模型通过LabeledPoint(label: Double, features: Vector)对象操作,其中封装了目标变量(标签)和特征向量从Kaggle/StumbleUpon evergreen分

2018-01-06 12:50:35 1701

原创 《Spark机器学习》笔记——基于MovieLens数据集使用SparkMLib机器学习库构建电影推荐引擎

一、前置知识《Spark机器学习》笔记——基于MovieLens数据集使用Spark进行电影数据分析二、import org.apache.spark.mllib.evaluation.{RankingMetrics, RegressionMetrics}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spa

2018-01-02 16:22:38 1521

原创 《Spark机器学习》笔记——基于MovieLens数据集使用Spark进行电影数据分析

1、数据集下载https://grouplens.org/datasets/movielens2、数据集下文件格式u.user用户属性文件包含user.id用户ID    gender性别   occupation职业    ZIP code邮编等属性,每个属性之间用|分割u.item电影元数据包含movie.id电影ID    title电影标题    release date电影上映日期

2018-01-02 14:19:55 3637 6

原创 Ubuntu下使用Python开发Spark程序

1、安装配置好Spark环境,确认执行Spark目录下的/bin/pyspark能够成功进入。Spark 集群搭建从零开始之1 Scala的安装与配置Spark 集群搭建从零开始之2 Spark单机伪分布式安装与配置Spark 集群搭建从零开始之3 Spark Standalone集群安装、配置与测试2、安装anaconda2https://www.anaconda

2017-12-28 14:44:15 1284

原创 图形数据库Neo4j入门

一、安装官网下载,https://neo4j.com二、Neo4j的查询语言Cypher的基本使用1、CREATE (you:Person {name:"chenjie"}) RETURN you2、MATCH (you:Person {name:"chenjie"}) CREATE (you)-[like:LIKE]->

2017-12-15 21:43:58 1009

原创 消息队列系列之分布式消息队列Kafka

介绍ApacheKafka®是一个分布式流媒体平台。这到底是什么意思呢?我们认为流媒体平台具有三个关键功能:它可以让你发布和订阅记录流。在这方面,它类似于消​​息队列或企业消息传递系统。它允许您以容错方式存储记录流。它可以让您在发生记录时处理记录流。什么是卡夫卡好?它被用于两大类的应用程序:构建可在系统或应用程序之间可靠获取数据的实时流数据管道构建实时流应用程序

2017-12-03 20:00:11 31783 1

原创 消息队列系列之ActiveMQ(JMS、集群配置)

1、ActiveMQ的下载与启动到http://activemq.apache.org/activemq-5152-release.html下载ActiveMQwindows版本的启动:运行bin文件夹中的win32(32位系统)/win64(64位系统)下的:activemq.bat(直接启动,不能关闭命令行窗口,否则会关闭)InstallService.bat(以服务方

2017-12-03 19:46:45 1373

原创 Flume 日志收集、使用Flume收集日志到HDFS

第一章 概览与架构1.1 源、通道与接收器Flume代理的架构如下图:输入叫做源,输出叫作接收器。通过提供类源与接收器之间的胶水。它们都运行在叫做代理的守护进程中。源将事件写到一个或者多个通道中。通道作为事件从源到接收器传递的保留区。接收器只能从一个通道接收事件。代理可能会有多个源、通道与接收器。1.2 Flume事件Flume传输的基本的数

2017-12-02 18:29:36 4544 1

原创 Hadoop/MapReduce 查找、统计和列出大图中的所有三角形

package cjtriangle;import java.io.IOException;import java.util.ArrayList;import java.util.Iterator;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.co

2017-11-26 23:28:53 687

原创 Hadoop/MapReduce、Spark 朴素贝叶斯分类器分类符号数据

Hadoop/MapReduce 朴素贝叶斯分类器分类符号数据

2017-11-25 23:48:12 1042 2

原创 Hadoop/MapReduce 及 Spark KNN分类算法实现

如何为R中的每一个点找到它合适的分类呢?KNN(K邻近)算法:(1)确定K(K的选择取决于具体的数据和项目需求)(2)计算新输入,如【1000;3.0,3.0】与所有训练数据之间的距离(与K一样,距离函数的选择也取决于数据的类型)(3)对距离排序,并根据前K个最小距离确定K个邻近。(4)搜集这些邻近所属的类别(5)根据多数投票确定类别通俗来说有一群土豪:土豪1,土豪2,土豪3,土豪4...有一群屌丝,屌丝1,屌丝2,屌丝3,屌丝4...现在来了一个人,如何判断这个人是屌丝还是土豪呢?

2017-11-18 20:56:48 3060 1

原创 Hadoop/MapReduce 及 Spark KMeans聚类算法实现

package kmeans;import java.io.BufferedReader;import java.io.DataInput;import java.io.DataOutput;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.util.ArrayL

2017-11-18 13:48:41 1079

翻译 Spark 使用马尔可夫模型的智能邮件营销

目的:用户的购买行为看起来是没有规律可循的,但其实从时间有序的角度看,也许是有规律可循的,例如,用户可能每一个月发工资时购买得多,每年某个时间(双十一、生日)等购买得比较多马尔科夫模型能够挖掘出时间上的规律,假设我们能够根据用户上一次购买记录推测其下一次购买时间,就可以在推测时间向其发送邮件进行营销至于营销的商品内容,可以根据其他推荐算法的结果。输入:,,,...ZSY40NY

2017-11-17 19:07:34 820 1

翻译 Hadoop/MapReduce 使用马尔可夫模型的智能邮件营销

目的:用户的购买行为看起来是没有规律可循的,但其实从时间有序的角度看,也许是有规律可循的,例如,用户可能每一个月发工资时购买得多,每年某个时间(双十一、生日)等购买得比较多马尔科夫模型能够挖掘出时间上的规律,假设我们能够根据用户上一次购买记录推测其下一次购买时间,就可以在推测时间向其发送邮件进行营销至于营销的商品内容,可以根据其他推荐算法的结果。输入:,,,...ZSY40NYPS

2017-11-17 16:55:34 716 3

翻译 Spark 好友推荐解决方案

目标:如果用户A与用户C同时都跟B是好友,但用户A与用户C又不是好友,则向用户A推荐C,向用户C推荐A,同时说明A与C的共同好友有哪些例如:有如下的好友关系:1 2,3,4,5,6,7,82 1,3,4,5,73 1,24 1,2,65 1,26 1,47 1,28 1其中每一行空格前的元素为用户ID,空格后的元素为用户的好友ID列表

2017-11-16 23:05:36 1574

原创 Hadoop/MapReduce 好友推荐解决方案

目标:如果用户A与用户C同时都跟B是好友,但用户A与用户C又不是好友,则向用户A推荐C,向用户C推荐A,同时说明A与C的共同好友有哪些例如:有如下的好友关系:1 2,3,4,5,6,7,82 1,3,4,5,73 1,24 1,2,65 1,26 1,47 1,28 1其中每一行空格前的元素为用户ID,空格后的元素为用户的好友ID列表其对应的好友

2017-11-16 22:27:48 868

翻译 Spark 共同好友解决方案:求大量集合的两两交集

Hadoop/MapReduce 共同好友解决方案:求大量集合的两两交集import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport scala.collection.mutable.ListBufferobject FindCommonFriends { def main

2017-11-16 16:12:47 2484

翻译 Hadoop/MapReduce 共同好友解决方案:求大量集合的两两交集

共同好友:求大量集合的两两交集目标:令U为包含所有用户的一个集合:{U1,U2,...,Un},我们的目标是为每个(Ui,Uj)对(i!=j)找出共同好友。前提:好友关系是双向的输入:...100,200 300 400 500 600200,100 300 400300,100 200 400 500400,100 200 300500,100,300600,100解决

2017-11-16 11:38:44 2134 1

翻译 Spark购物篮分析:关联规则挖掘

1、浅谈数据挖掘中的关联规则挖掘2、Hadoop/MapReduce购物篮分析:关联规则挖掘3、Spark购物篮分析过程分析:import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport scala.collection.mutable.ListBuff

2017-11-15 22:01:22 3085 3

翻译 Hadoop/MapReduce购物篮分析:关联规则挖掘

购物篮分析目的:查找一个给定超市或者网店购物篮中最常出现的商品对(阶数为1,2...)例如:如果有5个商品{A,B,C,D,E},对应以下6个交易:Transaction 1:A,CTransaction 2:B,DTransaction 3:A,C,ETransaction 4:C,ETransaction 5:A,B,ETransaction 6:B,E我们的目标是构建项集

2017-11-15 17:45:19 1884 1

翻译 Spark移动平均:时间序列数据平均值

一、内存排序import org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject MovingAverageInMemory { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppN

2017-11-15 15:42:35 1538

翻译 Hadoop/MapReduce移动平均:时间序列数据平均值

例子1:时间序列数据(股票价格)对于如下的收盘价序列数据:

2017-11-15 12:54:30 2003

翻译 Hadoop/MapReduce反转排序:控制规约器Reducer值的顺序

例子:计算一个给定文档集中单词的相对频度。目标是建立一个N*N矩阵M,其中N为所有给定文档的单词量,每个单元Mij包含一个特定上下文单词Wi与Wj共同出现的次数。为简单起见,将这个上下文定义为Wi的邻域。例如:给定以下单词:W1,W2,W3,W4,W5,W6如果定义一个单词的邻域为这个单词的前两个单词和后两个单词,那么这6个单词的邻域如下:单词    领域+-2W1    W2,W3

2017-11-08 21:38:35 1062

程序员修炼之道.从小工到专家

程序员修炼之道.从小工到专家

2014-06-05

基于JavaWeb的社交网络项目后台

基于JavaWeb的论坛项目,提供API供前端调用,支持安卓、JSP、HTML等调用

2018-11-20

基于JavaWeb的论坛项目

基于JavaWeb的论坛项目,采用JSP Servlet JDBC 单例模式等技术

2018-11-20

echarts.js图表插件带坐标点和放大缩小地图

echarts.js图表插件带坐标点和放大缩小地图echarts.js图表插件带坐标点和放大缩小地图

2018-11-20

Hadoop bin

hadoop在windows上运行需要winutils支持和hadoop.dll等文件

2017-10-22

求大神!soap-android 访问 web service 的问题

发表于 2015-09-23 最后回复 2016-04-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除