数据平台开发实习生
文章平均质量分 84
Jooey_Zhong
Trying to be a Pythoner;Focus on Hadoop &Spark
展开
-
Python开发Spark应用之Wordcount词频统计
待我学有所成,结发与蕊可好。@夏瑾墨一个早上只做了一点微小的工作,很忏愧。但是发现Spark这玩意还是蛮有意思的。下面给大家介绍一下如何用python跑一遍Wordcount的词频统计的示例程序。#在pyspark模块中引入SparkContext和SparkConf类#在operator模块中导入add类from pyspark import SparkContext, SparkConf原创 2016-10-23 01:38:11 · 7981 阅读 · 0 评论 -
数据平台开发实习生系列之——学习规划
待我学有所成,结发与蕊可好。@夏瑾墨 by Jooey大概是从2015年2月份开始接触大数据相关的,在假期的时候,没有回家,留在了302实验室,现在想想那时候都学了什么?那时候和一个死大四的老学长还有两个14届的学长住在实验室里过着一箪食一豆羹的纯粹生活,在某个夜里死大四的老学长让我们去抬服务器,这是干什么?他说搭环境,后来了解到就是在搭hadoop这个平台,印象中老学长Python玩的比较溜,看原创 2016-11-03 01:30:40 · 877 阅读 · 1 评论 -
利用Python进行数据分析系列之——数据格式转换
待我学有所成,结发与蕊可好。@夏瑾墨 by Jooey需求:将OD_Matrix_Weekday_BusyHourAM.csv转换成OD_Matrix_Weekday_BusyHourAM.json。 在数据可视化中,OD弦图要求以百分比的输入格式,也可以用具体的客流数值,但是需要修改一下绘图的js脚本。由于目前数据处理的结果主要是二维表形式的csv,与弦图要求的输入格式不一致,所以这里按照需求原创 2016-11-04 01:43:15 · 1275 阅读 · 0 评论 -
002如何构建hadoop集群环境?
实验室机器配置情况: 3台PowerEdge R730 Server 1台PowerEdge R410 Server 1台kvm 1台交换机我们打算配置三个节点规模的集群,所以我们计划集群有1一个namenode背景知识:本篇文章介绍如何在一个计算机集群上构建Hadoop系统。hadoop的主体用java语言写成,能够在任意一个安装了jvm(Java Virtual Machine)(Jav原创 2016-04-26 23:15:05 · 713 阅读 · 0 评论 -
001潜入大数据Hadoop框架的世界
我的大数据初步学习路线图了解云计算技术学习Hadoop基础概念hadoop HDFS文件系统的特征 什么是Map/ReduceMapreduce 整个工作机制图 Hadoop mapper类的阅读Mapreduce shuffle和排序 java处理海量数据运用python数据分析课题:云计算和大数据技术与应用 讲座人:杜宇健 (清华大学自动化系博士,中国移动研究院,技术总监)原创 2016-04-22 00:56:49 · 2530 阅读 · 0 评论 -
译:Getting Started with Spark (in Python) Spark入门
待我学有所成,结发与蕊可好。@ 夏瑾墨Getting Started with Spark (in Python) Author:Benjamin Bengfort Translator:Jooey ZhongHadoop 作为处理大数据集的分布式计算标准工具这就是为什么当你路过机场看到广告上的”大数据“的原因。它已经变成大数据的一种操作系统,提供一个让您能使用许多相对廉价的商品化硬件在以翻译 2016-10-27 18:42:52 · 834 阅读 · 0 评论 -
使用 Spark MLlib 做 K-means 聚类分析
## Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file distributed with# this work for additional information regarding copyright原创 2017-01-01 00:42:44 · 1488 阅读 · 0 评论 -
MCM-Problem-C-Overview
C题是MCM于2016年新增设的题目,被称为Data Insights类问题,关注与数据有关的数学模型。因此,与之前的MCM赛题相比,统计、模式识别等领域的模型可能用的更多。 C题是与数据有关的实际问题,建模的时候可能会遇到各种困难,如数据集较大(但还不是大数据级别),混合的数据类型,数据缺失等。但C题不是大数据(big data)问题,不需要参赛队掌握特殊的计算机科学知识,如数据处理的基本算法、原创 2017-01-01 00:49:58 · 1508 阅读 · 0 评论