- 博客(11)
- 收藏
- 关注
原创 python3实现爬取百度图库的图片
环境:python3#!/usr/bin/python# -*-coding:utf-8-*-# FileName:spider.py# Author:Cody# Date:2018/5/11 22:10import requests # http客户端import re # 正则表达式模块import random #随机数def spiderPic(html, key...
2018-05-12 13:11:11 1088 1
原创 Oracle中导入dmp文件
在Oracle中(scott需要dba权限):imp scott/oracle@orcl11gBigDataTest1 file=/dfs/data/tabledatadmp.dmp full=y buffer=5400000报错:Import: Release 11.2.0.1.0 - Production on Tue Jan 1 16:23:18 2019Copyright...
2019-01-01 17:56:13 3007
原创 数据简单的清洗处理
有时文件数据较大时,csv转excel会发生数据丢失,这时候可以利用python对数据进行简单的校验处理#!/usr/bin/env python'''文件类型province,city,district,year,month,day,carrier, in_num,out_num,dwell_num河北省,秦皇岛市,海港区,20180816,3289.0-1132.0-1167....
2018-12-01 23:54:07 462
原创 python3 ActiveMQ从quene消费
Python利用stomp从activeMq中消费数据 #!/usr/bin/env pythonimport timeimport sysimport osimport stompuser = "cody"password = "123456"host = "192.7.1.136"port = 61613destination = "test"class ...
2018-12-01 23:47:41 1336
原创 Spark2 sparkSession使用
sparkSession使用:package com.jdjr.city.demoimport org.apache.spark.sql.SparkSession/** * @Auther: hongwei * @Date: 2018/11/9 16:31 * @Description: SparkSession使用 */object Test4 { def m...
2018-11-09 17:00:01 1045
原创 Mysql case when then操作
表数据:按天分类型统计最近10天的资金总量:SELECT dt,SUM(hold_amt_day),SUM(CASE WHEN `type`=1 THEN hold_amt_day END) AS a1, SUM(CASE WHEN `type`=2 THEN hold_amt_day END) AS a2, SUM(CASE WHEN `type`=3 THEN hold_am...
2018-11-09 09:41:02 3018
原创 查询第二高薪水,若不存在则返回null
在leetcode上有这样的一道题:查询中第二高的薪水值,不存在则返回nullSELECT (SELECT DISTINCT salary FROM employee GROUP BY salary DESC LIMIT 1,1) AS SECOND或者SELECT ( SELECT DISTINCT Salary FROM Employee ORDER BY Salary DESC LIMIT...
2018-06-10 16:03:02 3696 2
原创 Spark中reduceByKey、groupByKey和combineByKey的区别
在spark中,reduceByKey、groupByKey和combineByKey这三种算子用的较多,其中:•reduceByKey用于对每个key对应的多个value进行merge操作,最重要的是它能够在本地先进行merge操作,并且merge操作可以通过函数自定义;•groupByKey也是对每个key进行操作,但只生成一个sequence,groupByKey本身不能自定义函数,需要先用...
2018-06-10 15:57:19 9135 1
原创 Hive sql练手
#在hive中创建表create table student(sno int,sname string,ssex string,sage int,sdept string) row format delimited fields terminated by "," stored as textfile;create table course(cno int,cname string) row fo
2018-01-19 11:19:41 519
原创 Hadoop中wordCount功能实现Demo
wordCount是hadoop下mapReduce下的一个基本的入门程序,用来统计一系列文本中单词出现的次数(最基本的用法)。Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。采用“分而治之”的办法,Mapper负责“分”,Reducer负责统计汇总。#自定义Mapper部分package com.vm.mapreduce;
2017-10-12 09:38:13 384
原创 Hadoop2.6.4集群搭建
环境配置:(1)4台配置好的centOs6.5(mini1,mini2,mini3,mini4),每台机器都新建hadoop用户的用户,授予最高权限;(2)jdk版本:1.7;(3)编译好的hadoop2.6.4安装包(centOS6.5平台)集群搭建:(1)配置免密登入:cd ~/.ssh ssh-keygen -t rsa (四个回车)
2017-10-10 11:26:12 274
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人