自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Jooey_Zhong

待我学有所成,结发与蕊可好。@夏瑾墨 Trying to be a Pythoner;Focus on Hadoop & Spark,Data Analysis

  • 博客(21)
  • 收藏
  • 关注

原创 MCM-Problem-C-Overview

C题是MCM于2016年新增设的题目,被称为Data Insights类问题,关注与数据有关的数学模型。因此,与之前的MCM赛题相比,统计、模式识别等领域的模型可能用的更多。 C题是与数据有关的实际问题,建模的时候可能会遇到各种困难,如数据集较大(但还不是大数据级别),混合的数据类型,数据缺失等。但C题不是大数据(big data)问题,不需要参赛队掌握特殊的计算机科学知识,如数据处理的基本算法、

2017-01-01 00:49:58 1496

原创 使用 Spark MLlib 做 K-means 聚类分析

## Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file distributed with# this work for additional information regarding copyright

2017-01-01 00:42:44 1477

原创 Python字典转Json并使用多种格式实现

前言: 利用Python数据转换的套路可以遵循:变量定义的位置,字典操作,列表操作,这个三部分的内容可以处理大部分的数据相关需求。1.下面我们先看这个脚本:#从字典转换为Json的方法from distutils.log import warn as printffrom json import dumpsfrom pprint import pprintBOOKs = { '0132

2016-11-13 12:00:17 3852

原创 利用python进行数据分析之——数据规整化2(ETL)

待我学有所成,结发与蕊可好。@夏瑾墨 by Jooey3.数据的轴向连接 Nunpy 有一个用于合并串联原始Numpy数组的concatenation函数import numpy as npimport pandas as pdfrom pandas import Series,DataFramearr=np.arange(12).reshape((3,4))print (arr)pri

2016-11-11 14:16:27 1300

原创 利用python进行数据分析之——数据规整化1(ETL)

待我学有所成,结发与蕊可好。@夏瑾墨 by Jooey合并数据集数据库风格的DataFrame合并索引上的合并轴向连接1.数据库风格的DataFrame合并import pandas as pdfrom pandas import Series,DataFrame#一对多df1=DataFrame({'key':['b','b','a','c','a','a','b'],'data1'

2016-11-08 23:59:34 6700

原创 CSDN-markdown编辑器使用方法

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2016-11-06 14:33:53 358

原创 11月读书进度记录表

2016年11月5日(更)技术类书籍《鸟哥的Linux私房菜(基础学习篇)》——P130/778:第一部分 第五章 5.4 超简单文本编辑器:nano《利用Python进行数据分析》——P64/463:第三章 %run 命令《Java jdk8 学习笔记》——P226/627:Chapter8 异常处理 - 人文类书籍《北上广深的年轻人》——p50/228《十年一品温如言》——p81/

2016-11-06 01:42:20 610

原创 利用Python进行数据分析系列之——数据格式转换

待我学有所成,结发与蕊可好。@夏瑾墨 by Jooey需求:将OD_Matrix_Weekday_BusyHourAM.csv转换成OD_Matrix_Weekday_BusyHourAM.json。 在数据可视化中,OD弦图要求以百分比的输入格式,也可以用具体的客流数值,但是需要修改一下绘图的js脚本。由于目前数据处理的结果主要是二维表形式的csv,与弦图要求的输入格式不一致,所以这里按照需求

2016-11-04 01:43:15 1265

原创 数据平台开发实习生系列之——学习规划

待我学有所成,结发与蕊可好。@夏瑾墨 by Jooey大概是从2015年2月份开始接触大数据相关的,在假期的时候,没有回家,留在了302实验室,现在想想那时候都学了什么?那时候和一个死大四的老学长还有两个14届的学长住在实验室里过着一箪食一豆羹的纯粹生活,在某个夜里死大四的老学长让我们去抬服务器,这是干什么?他说搭环境,后来了解到就是在搭hadoop这个平台,印象中老学长Python玩的比较溜,看

2016-11-03 01:30:40 872 1

原创 用Python解一元二次方程以及进制转换

待我学有所成,结发与蕊可好。@夏瑾墨每天都做出一定量的思考题,才会有长久的进步啊。 1.解一元二次方程设计 请定义一个函数quadratic(a, b, c),接收3个参数,返回一元二次方程:ax2 + bx + c = 0的两个解。提示:计算平方根可以调用math.sqrt()函数:import mathdef quadratic(a,b,c): p=b*b-4*a*c i

2016-11-01 10:12:45 2751

翻译 译:Getting Started with Spark (in Python) Spark入门

待我学有所成,结发与蕊可好。@ 夏瑾墨Getting Started with Spark (in Python) Author:Benjamin Bengfort Translator:Jooey ZhongHadoop 作为处理大数据集的分布式计算标准工具这就是为什么当你路过机场看到广告上的”大数据“的原因。它已经变成大数据的一种操作系统,提供一个让您能使用许多相对廉价的商品化硬件在以

2016-10-27 18:42:52 820

原创 数据结构之树和二叉树算法实现(C语言)

待我学有所成,结发与蕊可好。@夏瑾墨开发环境为Dev-C++ 5.11 编译器:MinGW GCC 6.1.0 64-bit 一、算法程序组建目录结构如下: 第一部分:头文件 1. c1.h 2. c3-3.h 3. c6-1.h 4. c6-2.h 5. c6-3.h 6. c6-4.h 7. c6-5.h 8. c6-7.h 第二部分:主程序入口文

2016-10-26 01:40:57 5398

原创 Python开发Spark应用之Wordcount词频统计

待我学有所成,结发与蕊可好。@夏瑾墨一个早上只做了一点微小的工作,很忏愧。但是发现Spark这玩意还是蛮有意思的。下面给大家介绍一下如何用python跑一遍Wordcount的词频统计的示例程序。#在pyspark模块中引入SparkContext和SparkConf类#在operator模块中导入add类from pyspark import SparkContext, SparkConf

2016-10-23 01:38:11 7966

原创 Anney and Jooey

Topic: Work in pairs. A girl student and a boy student act to attend a blind date in a café. 待我学有所成,结发与蕊可好。@夏瑾墨 by JooeyAnney: Hi I am Anney! Jooey: Hi I am Jooey!Anney: Nice to meet you. Anney

2016-10-22 12:13:45 557

原创 Java技术笔记2:类与对象实例之用户定义类

待我学有所成,结发与蕊可好。@夏瑾墨用户自定义类(是用户自己编写的类,以下定义一个Cylinder类)package com.zhong;class Cylinder //定义Cylinder类{double radius; //定义成员变量radiusint height; //定义成员变量heightdouble pi=3.14;void area() //定义无返回值的方法are

2016-10-22 11:53:22 1089

原创 Java技术笔记1:类与对象实例之系统常用类

一直在反思最近的时间安排,知识没有总结和积累很容易发生遗忘,如果要让自己在短期内能有大的提升,那就需要每天的知识流输入,减去你生活中看起来也是重要的东西,然而性命攸关的只有一个,兼顾太多,一无所得,一学长提到贪心算法来处理利益最大化问题,最后往往都不是最好的方案。而使用动态规划(Dynamic Programming),给自己做做减法,追求一下深度而非广度,你会发现自己可以做得更好。java类的基本

2016-10-18 09:40:12 1012

原创 C语言知识点完美总结

C语言最重要的知识点 总体上必须清楚的: 1)程序结构是三种: 顺序结构 、选择结构(分支结构)、循环结构。 2)读程序都要从main()入口, 然后从最上面顺序往下读(碰到循环做循环,碰到选择做选择),有且只有一个main函数。 3)计算机的数据在电脑中保存是以 二进制的形式. 数据存放的位置就是 他的地址. 4)bit是位 是指为0 或者1。 byte 是指字节, 一个字节

2016-10-08 14:26:40 22798 3

原创 003软件(2016)基础设计(一)

内容一:顺序、分支、循环结构程序设计、数组的应用 (4学时)方式:简单复习知识点,重点复习一维数组、二维数组。 题目:  基础:将10个元素存入一个一维数组中,按逆序输出,并找出最大数和最小数。 解:#include<stdio.h> int main(){ int i, a[10]; for(i = 0; i < 10; i ++)//顺序循环,输入10个数

2016-09-04 20:52:24 1102

原创 001 用ssh上传文件的简单方法

ssh连上了那么就差一步即可实现,yum安装个lrzsz软件;yum安装后再使用rz命令上传文件; yum -y lrzsz rz

2016-06-05 21:45:52 503

原创 002如何构建hadoop集群环境?

实验室机器配置情况: 3台PowerEdge R730 Server 1台PowerEdge R410 Server 1台kvm 1台交换机我们打算配置三个节点规模的集群,所以我们计划集群有1一个namenode背景知识:本篇文章介绍如何在一个计算机集群上构建Hadoop系统。hadoop的主体用java语言写成,能够在任意一个安装了jvm(Java Virtual Machine)(Jav

2016-04-26 23:15:05 699

原创 001潜入大数据Hadoop框架的世界

我的大数据初步学习路线图了解云计算技术学习Hadoop基础概念hadoop HDFS文件系统的特征 什么是Map/ReduceMapreduce 整个工作机制图 Hadoop mapper类的阅读Mapreduce shuffle和排序 java处理海量数据运用python数据分析课题:云计算和大数据技术与应用 讲座人:杜宇健 (清华大学自动化系博士,中国移动研究院,技术总监)

2016-04-22 00:56:49 2519

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除