橙以
码龄7年
关注
提问 私信
  • 博客:110,846
    110,846
    总访问量
  • 55
    原创
  • 782,078
    排名
  • 92
    粉丝
  • 0
    铁粉

个人简介:初涉编程

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:吉林省
  • 加入CSDN时间: 2018-07-17
博客简介:

橙以的博客

查看详细资料
个人成就
  • 获得52次点赞
  • 内容获得6次评论
  • 获得297次收藏
创作历程
  • 2篇
    2019年
  • 54篇
    2018年
成就勋章
TA的专栏
  • 英语
  • 数组必会知识点
    1篇
  • 简易hadoop知识点大纲
  • HBase
    1篇
  • HBase数据库
    1篇
  • Hive是一个数据仓库
    1篇
  • spark是一种专门为大规模数据处理的计算引擎
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

归并排序、堆排序等排序方法的思想概述

在这篇文档中将介绍几种排序法,冒泡排序和简单选择排序已经在前面博客中提过,在此不再赘述。排序算法分类:以下是几种排序法的比较:稳定:如果a原本在b前面,而a=b,排序之后a仍然在b的前面。不稳定:如果a原本在b的前面,而a=b,排序之后 a 可能会出现在 b 的后面。时间复杂度:对排序数据的总的操作次数。反映当n变化时,操作次数呈现什么规律。空间复杂度:是指算法在计...
转载
发布博客 2019.02.21 ·
1157 阅读 ·
2 点赞 ·
0 评论 ·
5 收藏

Spark的基本知识

临近年关将spark近来所学整理一下,若有不足请指正。一、什么是Spark?Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎,具有高吞吐,低延时,通用易扩展,高容错等特点。Spark内部提供了丰富的开发库、提供了多种运行模式,Spark函数式编程语言在Scala中实现。二、Spark的架构?Spark架构示意图:                ...
原创
发布博客 2019.02.02 ·
677 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

实时分析Flume-Kafka框架搭建最终将数据在mysql中输出

因为搭建框架比较复杂如果这其中有不足,欢迎提出指正。下面附上实时分析简化框架图帮助理解。把离线分析框架也附上实时分析搭建过程:1.在命令提示符中(Windows+R)找到准备好的SocketTest.java路径,javac SocketTest.java运行后生成SocketTest.class文件(运行前将SocketTest.java中包名删除)将.class文件...
原创
发布博客 2018.12.27 ·
1102 阅读 ·
1 点赞 ·
1 评论 ·
2 收藏

SparkStreaming--小案例2对于爬虫来的数据进行分析

请注意本博客中代码头和尾是固定模式,而lines是需要根据你的数据特点进行切分和整理的,我会附上我的一部分数据供参考,附在文档末尾。1.统计某一时间段输入数据出现次数(时间不断更新)这不是爬虫数据分析是一个热身package Test1226import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Sec...
原创
发布博客 2018.12.26 ·
863 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Java-俄罗斯方块最新完善版

趋于完善版步骤1:package game;import java.awt.image.BufferedImage;public class Cell { private int row; private int col; private BufferedImage image; public Cell(){} public Cell(int row, int col ...
原创
发布博客 2018.12.25 ·
12773 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

SparkStreaming例题

取材自官网http://Spark.apache.org案例1:和集群搭配使用package SparkStreamingimport java.io.{BufferedReader, InputStreamReader}import java.net.Socketimport java.nio.charset.StandardCharsetsimport org.apach...
原创
发布博客 2018.12.25 ·
849 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Kafka例题Producer-Consumer模型

Producerpackage broker1221;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.Producer;import org.apache.kafka.clients.producer.ProducerRecord;imp...
原创
发布博客 2018.12.25 ·
253 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scala--Spark将某网站的爬虫记录进行整理

设计思路:1.将ip截取出来(多种方式)用map组成二元组(注意区分map,flatmap)将相同ip出现次数统计出来分析得出爬虫ip2.将多次重复ip且访问密集的设为访问黑名单3.将同一时间访问某网站的ip整理出来package Test1225import org.apache.spark.SparkConfimport org.apache.spark.stream...
原创
发布博客 2018.12.25 ·
1001 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

python--员工信息表修改

# -*- coding: utf-8 -*-from Emp import Empimport jsonarr = []with open("d://123.txt", "r") as empfile: if empfile.read() != "": empfile.seek(0) arr = json.load(empfile)while ...
原创
发布博客 2018.12.25 ·
1387 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

爬虫Spider--爬取贴吧

输入起始页的灵活爬取# - * - coding: UTF-8 - * -"""import urllib2url = "http://www.baidu.com"#IE 9.0 的 User-Agent,包含在 ua_header里ua_header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT...
原创
发布博客 2018.12.25 ·
461 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

爬虫Spider--爬取京东某产品的评价

本篇博客提供了4种方式,有简略版仅能完成要求却简陋,也有较为完整的方式1.# -*- coding:utf-8 -*-import reimport urllib2import jsonimport sysif sys.getdefaultencoding() != 'utf-8': reload(sys) sys.setdefaultencoding('ut...
原创
发布博客 2018.12.25 ·
1214 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark的练习题(6)

1.排序:       定义三个文件对文件内容进行排序(数字)package com.hyxy.spark01import org.apache.spark.{SparkConf, SparkContext}object listarray { def main(args: Array[String]): Unit = { val conf = new SparkCon...
原创
发布博客 2018.12.14 ·
7920 阅读 ·
7 点赞 ·
2 评论 ·
43 收藏

Scala一种编程语言

scala安装安装scala去官网下载scala2.11.8(spark使用2.1.2对应scala版本是2.11.8)下载scala-2.11.8.msi(安装)或scala-2.11.8.zip(解压)注意:scala安装目录不能有中文和空格(特殊符号)安装idea下一步。。。。configurens--》plugins--》搜索  “scala”--》inst...
原创
发布博客 2018.12.14 ·
7275 阅读 ·
6 点赞 ·
0 评论 ·
24 收藏

python--前进快速的编程语言知识点提要

python一般用于人工智能,我在学习它是观看的是百度AI文档,感兴趣的可以看看python11.212.X和3.X    2.X:用户更多一些,稳定,第三方库 python 语法优雅、简洁、快速。。。 python解析器     cpython   jpython  ipython  pipi。。。。。。 python交互式:输入立即得到输出可以重复使用...
原创
发布博客 2018.12.14 ·
1051 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive是什么

学Hive指路《Hive编程指南》hive:Apache蜂巢™数据仓库软件便于阅读,写作,和管理大型数据集居住在分布式存储使用SQL。结构可以投影到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。 存储元数据需要一个关系型数据库(一般是mysql)     一般存储表的模式和分区信息等真正的数据存放到hdfshive只需要安装到一台机器上...
原创
发布博客 2018.12.14 ·
2600 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

HBase是什么

HBase这篇文档是按照学习过程总结的是简易版大纲,其中包含的知识点是需要时间和耐心详细琢磨的。Hbase:Apache HBase是一个开源的,分布式的,版本化的非关系数据库,来自谷歌的bigtable,目标:托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上11.7hbase:传统数据库非关系型数据库hbase权威指南第一章传统行式数据库:数据是...
原创
发布博客 2018.12.14 ·
595 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop基础知识点汇总简易版

学好hadoop不是一朝一夕的事情此文档简略仅适用于初入门做了解使用,若想深入学习请使用《hadoop权威指南》hadoop模块:Hadoop Common:支持其他Hadoop模块的常用实用程序。Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。Hadoop YARN:作业调度和集群资源管理的框架。Hadoop MapReduc...
原创
发布博客 2018.12.14 ·
2645 阅读 ·
3 点赞 ·
0 评论 ·
24 收藏

hadoop的初入门--安装hadoop环境

一、Hadoop的三种模式:1、独立模式或本地模式 (standalone或local mode)简介即默认模式。所谓默认模式,就是安装完jdk及hadoop,配置好相应的环境,即本地模式配置完成。 所有程序都在单个JVM上执行。 使用本地文件系统,而不是分布式文件系统。 无需运行任何守护进程(daemon),hadoop不会启动NameNode、DataNode等守护进程,Map(...
原创
发布博客 2018.10.29 ·
388 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Linux的基础命令和Shell脚本

一、计算机  1、能接收用户输入的指令和数据,经过中央处理器的算术逻辑单元处理,然后会产生或者显示新数据的,就是计算机。   比如,普通商户用的计算器,手机,提款机,汽车导航,桌面电脑,手提电脑等  2、计算机的五大单元:    输入单元:输入设备,键盘,鼠标,扫描仪,触摸屏幕    输出单元:显示器,打印机.....    cpu的控制单元:控制输入单元和输出单元工作...
原创
发布博客 2018.09.29 ·
1092 阅读 ·
1 点赞 ·
1 评论 ·
10 收藏

JSP的基础知识及案例讲解

一、JSP的由来   1、Servlet诞生以来,在系统维护,变更及其预览视图效果时,比较繁琐(HTML部分)。后来,Sun公司推出了JSP来解决这个麻烦。JSP的作用就是将Servlet里的HTML部分抽取出来,单独封装。   2、什么是JSP技术      就是Sun公司提供的服务端动态页面的一个组件规范。      JSP先转成Servlet,再执行。二、JSP编写规范...
原创
发布博客 2018.09.22 ·
586 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏
加载更多