大数据
ericliu2017
精通python和深度学习,近一年开始做医疗AI相关的项目,熟悉NLP相关模型,有NER和文本分类相关编程经验;
做过电子病历智能诊断和电子病历结构化等相关项目。
展开
-
大数据可视化工具---GraphBuilder demo
Intel近日开源了GraphBuilder测试版本的源码。GraphBuilder由英特尔研究院(Intel Labs)开发,是首个针对大数据的可扩展的开源Java库,可以将大数据集构建成图形——能够反映数据之间关系的网络状结构图,帮助行业和学术界的科学家或数据分析师快速分析大型数据集。GraphBuilder使用MapReduce并行编程模型进行扩展,其主要组件及与Hadoop原创 2013-12-05 23:15:40 · 4088 阅读 · 0 评论 -
Storm单机+zookeeper集群安装
Storm单机+zookeeper集群安装1、安装zookeeper集群2、准备机器10.10.3.44 flumemaster1 zk10.10.3.129 flumemaster2 zk10.10.3.132 flumecollector1 zk10.10.3.115 flumeNg1 stor转载 2014-05-18 00:17:49 · 1424 阅读 · 0 评论 -
如何编译Apache Hadoop2.2.0源代码
hadoop2的学习资料很少,只有官网的少数文档。如果想更深入的研究hadoop2,除了仅看官网的文档外,还要学习如何看源码,通过不断的调试跟踪源码,学习hadoop的运行机制。 1.安装CentOS我使用的是CentOS6.5,下载地址是http://mirror.neu.edu.cn/centos/6.5/isos/x86_64/,选择CentOS-6.5-x86_64转载 2014-05-17 21:39:38 · 577 阅读 · 0 评论 -
五种使hive脚本运行更快的方法
As a data scientist working with Hadoop, I often use Apache Hive to explore data, make ad-hoc queries or build data pipelines.Until recently, optimizing Hive queries focused mostly on data layout techn转载 2015-02-26 17:53:15 · 2236 阅读 · 0 评论 -
Ambari1.7.0安装
下载Ambari的仓库[root@sandbox ~]# wget -nv http://public-repo-1.hortonworks.com/ambari/centos6/1.x/updates/1.7.0/ambari.repo -O /etc/yum.repos.d/ambari.repo2015-02-28 09:56:39 URL:http://public-repo-1.hort原创 2015-02-28 10:52:20 · 1270 阅读 · 0 评论 -
在docker上安装 Spark 1.2.0
好久没有写博客了,最近有点时间打算写点。1.什么dockerDocker 是一个开源项目,诞生于 2013年初,最初是 dotCloud 公司内部的一个业余项目。它基于 Google 公司推出的 Go 语言实现。 项目后来加入了 Linux 基金会,遵从了 Apache 2.0 协议,项目代码在 GitHub 上进行维护。Docker 自开源后受到广泛的关注和讨论,以至于 dotC原创 2015-02-12 10:54:56 · 2876 阅读 · 0 评论 -
在已经安装好spark的docker镜像里安装cassandra2.0.7
1. 通过docker run命令的-v/–volume参数拷贝 apache-cassandra-2.0.7-bin.tar.gz到docker容器[root@master ~]# docker run -v /data:/mnt -i -t -P -h sandbox sequenceiq/spark:1.2.0 /etc/bootstrap.sh -bash/Starting sshd:原创 2015-03-02 14:51:05 · 1527 阅读 · 0 评论 -
Kong-Mashape 开源 API 网关介绍
1.什么是KongKong 是一个可扩展开源的 API 层工具(也可以叫API网关或者API中间件). Kong 运行在任何 RESTful API 的前端,并且可以通过插件方式扩展,这个插件它提供了超越核心平台的额外的功能和服务的。具有以下特点:可扩展性: Kong通过简单的增加机器节点,可以很容易的水平扩展,它通过简单的增加机器节点.模块化:翻译 2015-12-30 16:31:14 · 9854 阅读 · 1 评论 -
Writing from Flume to HDFS
Example: Writing from Flume to HDFSApache Flume is a service for collecting log data. You can capture events in Flume and store them in HDFS for analysis. For a conceptual description of Flume, se转载 2016-06-01 17:09:50 · 712 阅读 · 0 评论 -
hadoop-2.2.0 分布式安装
hadoop安装包:hadoop-2.2.0.tar.gz操作系统: CentOS6.4jdk版本: jdk1.7.0_211. 配置namenode和datanode 配置成功的关键在于确保各机器上的主机名和IP地址之间能正确解析。修改每台机器的/etc/hosts文件,如果该台机器作namenode用,则需要在文件中添加集群中所有机器的IP地址及其对应 主机原创 2014-02-02 18:40:04 · 3463 阅读 · 0 评论 -
cs120_lab1a作业答案
Math and Python reviewThis notebook reviews vector and matrix math, the NumPy Python package, and Python lambda expressions. Part 1 covers vector and matrix math, and you'll do a few exercises by原创 2016-07-12 20:42:41 · 950 阅读 · 0 评论 -
spark0.9分布式安装
spark安装包:spark-0.9.0-incubating-bin-hadoop2.tgz操作系统: CentOS6.4jdk版本: jdk1.7.0_211. Cluster模式1.1 安装Hadoop用VMware Workstation创建三台CentOS 虚拟机,hostname分别设置为 master,slaver01, slaver02原创 2014-02-08 17:36:52 · 8534 阅读 · 7 评论 -
mahout0.8 构建推荐图书系统(dataguru mahout 第二周作业)
书面作业 1. 用Maven搭建Mahout的开发环境,并完成PPT 26页,最简单的例子。要求有过程说明和截图。1.1开发环境– Win7 64bit – Java 1.7.0_51– Maven-3.2.1–myEclipse2013 SR– Mahout-0.8– Hadoop-2.2.01.2 用Maven构建Mahout开发环境1.2原创 2014-03-11 20:54:50 · 2560 阅读 · 0 评论 -
机器实战笔记1
第一章 Python语言1.Python的安装1)查看是否已经安装 which python whereis python python -V1)查看是否已经安装 which python whereis python python -V1)查看是否已经安装 [root@hadoop ~]# which python /usr原创 2013-12-14 18:39:19 · 1410 阅读 · 0 评论 -
spark 官方动手练习二:用spark浏览维基百科的数据
在本章中,我们将首先使用Spark shell以交互方式探索维基百科的数据。然后,我们会给出一个简要介绍了编写spark的程序。请记住,Spark是建立在Hadoop分布式文件系统(HDFS)之上的开源的计算引擎。交互数据分析现在,让我们用spark办对数据集中的进行排序和统计。首先,启动spark shell:[root@hadoop spark-0.8.0]# spark-sh翻译 2013-12-31 12:33:35 · 3360 阅读 · 2 评论 -
spark 官方动手练习一:Introduction to the Scala Shell
本章将教你如何使用Scala shell的基本知识,并为您介绍函数式编程与集合。如果你已经熟悉Scala或使用Python shell为课程,那么建议直接跳到下一节。这项练习是基于setp1 scala的教程。然而,通读了整个教程,并在控制台尝试这些例子的话,那么可能花相当长的时间,所以我们会提供一些介绍Scala的shell命令。通过键入以下命令启动斯卡拉控制台:1.调出sc原创 2013-12-10 22:22:34 · 2542 阅读 · 0 评论 -
SparK安装
1.Spark简介简单总结一下Spark的特性:首先介绍一下Spark的生态系统。fast: Spark引入了一种叫做RDD的概念(下一篇详细介绍),官方宣称性能比MapReduce高100倍fault-tolerant: Spark的RDD采用lineage(血统)来保存其生成轨迹,一旦节点挂掉,可重新生成来保证原创 2013-12-06 23:37:04 · 3339 阅读 · 2 评论 -
如何解决hadoop2.2一直处于安全模式
1.问题起因,在装完hadoop2.2后,起完hadoop后,一直处于安全模式。经过查询信息:Resources are lowon NN. Please add or free up more resources then turn off safe mode manually.NOTE: If you turn off safe mode before adding resourc原创 2014-01-30 23:42:23 · 3274 阅读 · 0 评论 -
spark0.8.1分布式安装
spark安装包:spark-0.8.1-incubating-bin-hadoop2.tgz操作系统: CentOS6.4jdk版本: jdk1.7.0_211. Cluster模式1.1安装Hadoop用VMware Workstation创建三台CentOS虚拟机,hostname分别设置为 master,slave01, slave02,设原创 2014-02-02 22:31:10 · 1703 阅读 · 0 评论 -
安装spark的前端展示可视化sparkR
1 安装R语言R语言是主要用于统计分析、绘图的语言和操作环境。官方网站:http://www.r-project.org/Windows下面有直接的安装包,直接下载安装很方便,但是对于刚出的CentOS6.0上不能直接通过yum 安装R,需要自己编译。下载页面:http://ftp.ctex.org/mirrors/CRAN/1.1更新源到fedoraproject原创 2014-02-23 17:17:49 · 3905 阅读 · 1 评论 -
Spark0.9分布式运行MLlib的二元分类算法
MLlib是的Spark实现一些常见的机器学习(ML)的功能以及相关的测试和数据生成器。 MLlib目前支持4种常见的类型的机器学习问题的设定,即,二元分类,回归,聚类和协同过滤,以及一个底层原始梯度下降优化。这个指南将概述在MLlib支持的功能,并且还提供调用MLlib的一些例子。依赖库MLlib使用jblas线性代数库,它本身取决于本地Fortran程序。如果不是已经安装在你的节点翻译 2014-02-10 23:41:47 · 3303 阅读 · 1 评论 -
Spark0.9分布式运行MLlib的协同过滤
在接下来的例子中我们将要装载一个评级数据。每一行包含一个用户、一个产品和一个评级。我们使用默认ALS.train()方法,这个方法假设评级是明确的。我们通过预测评级的均方误差的来评估推荐模型评级的。1 什么是协同过滤协同过滤推荐(Collaborative Filtering recommendation)是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内原创 2014-02-14 21:46:41 · 3762 阅读 · 2 评论 -
Spark0.9分布式运行MLlib的线性回归算法
1 什么是线性回归线性回归是另一个传统的有监督机器学习算法。在这个问题中,每个实体与一个实数值的标签 (而不是一个像在二元分类的0,1标签),和我们想要预测标签尽可能给出数值代表实体特征。MLlib支持线性回归以及L1(套索)和L2(脊)正规化的变体。Mllib还有一个回归算法,原始梯度下降(在下面描述),和上面描述的有相同的参数二元分类算法。可用线性回归算法:LinearRegres翻译 2014-02-17 22:38:33 · 2222 阅读 · 0 评论 -
cs120_lab1b作业答案
Word Count Lab: Building a word count applicationThis lab will build on the techniques covered in the Spark tutorial to develop a simple word count application. The volume of unstructured text in ex原创 2016-07-14 16:51:11 · 1374 阅读 · 0 评论