自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Cody_hong的博客

技术让世界更加美好!

  • 博客(11)
  • 收藏
  • 关注

原创 python3实现爬取百度图库的图片

环境:python3#!/usr/bin/python# -*-coding:utf-8-*-# FileName:spider.py# Author:Cody# Date:2018/5/11 22:10import requests # http客户端import re # 正则表达式模块import random #随机数def spiderPic(html, key...

2018-05-12 13:11:11 1045 1

原创 Oracle中导入dmp文件

在Oracle中(scott需要dba权限):imp scott/oracle@orcl11gBigDataTest1 file=/dfs/data/tabledatadmp.dmp full=y buffer=5400000报错:Import: Release 11.2.0.1.0 - Production on Tue Jan 1 16:23:18 2019Copyright...

2019-01-01 17:56:13 2977

原创 数据简单的清洗处理

有时文件数据较大时,csv转excel会发生数据丢失,这时候可以利用python对数据进行简单的校验处理#!/usr/bin/env python'''文件类型province,city,district,year,month,day,carrier, in_num,out_num,dwell_num河北省,秦皇岛市,海港区,20180816,3289.0-1132.0-1167....

2018-12-01 23:54:07 454

原创 python3 ActiveMQ从quene消费

Python利用stomp从activeMq中消费数据 #!/usr/bin/env pythonimport timeimport sysimport osimport stompuser = "cody"password = "123456"host = "192.7.1.136"port = 61613destination = "test"class ...

2018-12-01 23:47:41 1326

原创 Spark2 sparkSession使用

sparkSession使用:package com.jdjr.city.demoimport org.apache.spark.sql.SparkSession/** * @Auther: hongwei * @Date: 2018/11/9 16:31 * @Description: SparkSession使用 */object Test4 { def m...

2018-11-09 17:00:01 1023

原创 Mysql case when then操作

表数据:按天分类型统计最近10天的资金总量:SELECT dt,SUM(hold_amt_day),SUM(CASE WHEN `type`=1 THEN hold_amt_day END) AS a1, SUM(CASE WHEN `type`=2 THEN hold_amt_day END) AS a2, SUM(CASE WHEN `type`=3 THEN hold_am...

2018-11-09 09:41:02 2992

原创 查询第二高薪水,若不存在则返回null

在leetcode上有这样的一道题:查询中第二高的薪水值,不存在则返回nullSELECT (SELECT DISTINCT salary FROM employee GROUP BY salary DESC LIMIT 1,1) AS SECOND或者SELECT (  SELECT DISTINCT Salary FROM Employee ORDER BY Salary DESC LIMIT...

2018-06-10 16:03:02 3652 2

原创 Spark中reduceByKey、groupByKey和combineByKey的区别

在spark中,reduceByKey、groupByKey和combineByKey这三种算子用的较多,其中:•reduceByKey用于对每个key对应的多个value进行merge操作,最重要的是它能够在本地先进行merge操作,并且merge操作可以通过函数自定义;•groupByKey也是对每个key进行操作,但只生成一个sequence,groupByKey本身不能自定义函数,需要先用...

2018-06-10 15:57:19 9085 1

原创 Hive sql练手

#在hive中创建表create table student(sno int,sname string,ssex string,sage int,sdept string) row format delimited fields terminated by "," stored as textfile;create table course(cno int,cname string) row fo

2018-01-19 11:19:41 502

原创 Hadoop中wordCount功能实现Demo

wordCount是hadoop下mapReduce下的一个基本的入门程序,用来统计一系列文本中单词出现的次数(最基本的用法)。Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。采用“分而治之”的办法,Mapper负责“分”,Reducer负责统计汇总。#自定义Mapper部分package com.vm.mapreduce;

2017-10-12 09:38:13 355

原创 Hadoop2.6.4集群搭建

环境配置:(1)4台配置好的centOs6.5(mini1,mini2,mini3,mini4),每台机器都新建hadoop用户的用户,授予最高权限;(2)jdk版本:1.7;(3)编译好的hadoop2.6.4安装包(centOS6.5平台)集群搭建:(1)配置免密登入:cd ~/.ssh       ssh-keygen -t rsa (四个回车)

2017-10-10 11:26:12 250

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除