qq_34118993的博客

技术博客

排序:
默认
按更新时间
按访问量

Python实现大文件分割

在实际工作中,有些场景下,因为产品既有功能限制,不支持特大文件的直接处理,需要把大文件进行切割处理。 当然可以通过UltraEdit编辑工具,或者从网上下载一些文件切割器之类的。但这些要么手工操作太麻烦,要么不能满足自定义需求。 而且,对程序员来说,DIY一个轮子还是有必要的。 Python...

2018-11-14 19:58:04

阅读数:5

评论数:0

Java中的JVM重温

一、基础理论知识 1、java虚拟机的生命周期:   Java虚拟机的生命周期 一个运行中的Java虚拟机有着一个清晰的任务:执行Java程序。程序开始执行时他才运行,程序结束时他就停止。你在同一台机器上运行三个程序,就会有三个运行中的Java虚拟机。 Java虚拟机总是开始于一个main()...

2018-11-14 10:43:21

阅读数:5

评论数:0

大数据工程师面试

技术成熟 大数据实践不够 大数据大于数据分析 大数据人才企业培养的 核心技能 大数据团队构成   基础平台、应用平台、数据应用(用户画像、BI、用户行为分析) 大数据开发工程师 精通各个组件的原理。理解业务的需求,java,scala,hive 数据仓库工程师  数据建模,java,hive,p...

2018-11-08 16:35:35

阅读数:12

评论数:0

告诉你什么是真正的ETL

架构挑战: 1、对现有数据库管理技术的挑战。 2、经典数据库技术并没有考虑数据的多类别(variety)、SQL(结构化数据查询语言),在设计的一开始是没有考虑到非结构化数据的存储问题。 3、实时性技术的挑战:一般而言,传统数据仓库系统,BI应用,对处理时间的要求并不高。因此这类应用通过建模...

2018-11-06 10:00:43

阅读数:11

评论数:0

大数据技术之 Linux 基础

  一、Linux 入门概述 概述 Linux 内核最初只是由芬兰人林纳斯·托瓦兹(Linus Torvalds)在赫尔辛基大学上学时出于个人爱好而编写的。 Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 UNIX 的多用户、多任务、支持多线...

2018-10-26 11:22:40

阅读数:16

评论数:0

大数据图解

   

2018-10-25 17:48:03

阅读数:18

评论数:0

那些深夜还在回工作微信的男士们,你们还好吗?

微信工作群一响,我就想把手机扔掉。 所以看到下面这条新闻的时候,我相信很多人的内心都是复杂的。 罚一两个老板容易,想让微信不在深夜响起,却是难上加难。因为现实往往比“刻薄老板要求10分钟内回微信”更复杂。在另一头眼巴巴等你回复的,也可能是你的同事,你的客户,他们也在被其他力量逼迫着深夜给你...

2018-10-12 11:23:24

阅读数:15

评论数:0

Flume+Spark+Hive+Spark SQL离线分析系统

前段时间把Scala和Spark一起学习了,所以借此机会在这里做个总结,顺便和大家一起分享一下目前最火的分布式计算技术Spark!当然Spark不光是可以做离线计算,还提供了许多功能强大的组件,比如说,Spark Streaming 组件做实时计算,和Kafka等消息系统也有很好的兼容性;Spar...

2018-08-12 22:58:57

阅读数:17

评论数:0

Hive内置row_number

语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN) 简单的说row_number()从1开始,为每一条分组记录返回一个数字,这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序,再为降...

2018-07-28 22:33:25

阅读数:31

评论数:0

大数据面试要点总结

首先是大牛的建议: 我觉得面试是否成功主要取决是否能让面试官感觉到自己有项目经验,而体现项目经验呢,主要靠一些技术亮点,介绍项目时能说出一些技术亮点是很关键的,这些技术亮点应该是企业项目中的一个个解决方案,解决方案就是使用xx技术解决xx问题,比如使用threadlocal和拦截器解决分...

2018-07-18 21:02:56

阅读数:115

评论数:0

大数据框架学习:从 Hadoop 到 Spark

Hadoop1. Hadoop是什么Hadoop软件库是一个利用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理的框架。特点:部署成本低、扩展方便、编程模型简单。Hadoop 实现了在行业标准的服务器上进行可靠、可缩放的分布式计算,让你能够以较低的预算跟踪数 PB 以上的数据,而不必需要...

2018-07-13 16:37:23

阅读数:292

评论数:1

大数据框架Hadoop主要模块介绍

本文涉及到的所有模块,都是属于Apache组织,不包括其他第三方的模块。核心模块:Hadoop Common: 包括Hadoop常用的工具类,由原来的Hadoop core部分更名而来。主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统File...

2018-07-13 16:28:47

阅读数:633

评论数:0

流计算框架 Flink 与 Storm 的性能对比

1. 背景Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm(以下简称“Storm”)在美团点评实时计算业务中已有较为成熟的运用(可参考 Storm 的可靠性保证测试),有管理平台、常用 API 和相应的文档,大量实时...

2018-07-13 15:48:31

阅读数:92

评论数:0

restful接口设计规范总结

restful接口设计规范总结这篇 文章主要是借鉴他人,但是自己很想总结出一套规范,以供向我这样的新手使用,用来规范代码,如果有什么好的提议,请不吝赐教,本篇文章长期更新!一、重要概念:REST,即Representational State Transfer的缩写。我对这个词组的翻译是&...

2018-07-13 15:36:17

阅读数:58

评论数:0

Hadoop1.0与Hadoop2.0的区别

一、从Hadoop整体框架来说        Hadoop1.0即第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中HDFS由一个NameNode和多个DateNode组成,MapReduce由一个JobTracker和多个TaskTracker组成。    ...

2018-07-13 15:33:19

阅读数:52

评论数:0

redis持久化几种方式的比较

redis持久化的几种方式1、前言Redis是一种高级key-value数据库。它跟memcached类似,不过数据可以持久化,而且支持的数据类型很丰富。有字符串,链表,集 合和有序集合。支持在服务器端计算集合的并,交和补集(difference)等,还支持多种排序功能。所以Redis也可以被看成...

2018-07-13 15:25:14

阅读数:65

评论数:0

虚拟机上的CentOS克隆,以及上网解决方案

1.首先把Linux系统关机。然后准备克隆2.克隆后,生成MAC地址这里可以选择其他的网络适配器(NAT,还有仅主机),NAT不能用的可以查看我另一篇博客。3.删除  rm /etc/udev/rules.d/70-persistent-net.rules4.修改eth0里面的硬件MAC地址   ...

2018-06-14 14:35:13

阅读数:73

评论数:0

CentOS用不了NAT联网解决方案

首先,打开运行,输入“services.msc”。然后,找到VMware NAT Service和VMware DHCP Service,先右击VMware DHCP Service,点击“停止”(NAT服务也停止了),然后开启“VMware NAT Service”,再开启“VMware DHC...

2018-06-14 14:17:19

阅读数:42

评论数:0

业务逻辑详解

不同的项目有不同的功能,不同的功能需要不同的实现,实现这些核心功能的代码就叫业务逻辑 比如让你实现一个功能,给你两个数,让你获取它的和,你所写的如何才能获得任意给定的两个数的和,这个程序实现过程即可成为业务逻辑处理。“一个人了解的业务逻辑越多越细,他就是越好的需求分析师。”难题:什么是业务逻辑?业...

2018-05-29 19:00:13

阅读数:90

评论数:0

Spring Data Solr搜索引擎进行开发教程

Solr安装与配置1.1 Solr的介绍大多数搜索引擎应用都必须具有某种搜索功能,问题是搜索功能往往是巨大的资源消耗并且它们由于沉重的数据库加载而拖垮你的应用的性能。这就是为什么转移负载到一个外部的搜索服务器是一个不错的主意,Apache Solr是一个流行的开源搜索服务器,它通过使用类似REST...

2018-05-23 22:52:58

阅读数:92

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭