自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

超级帅的一个小伙子的博客

天下事有难易乎?为之,则难者亦易矣;不为,则易者亦难矣。人之为学有难易乎?学之,则难者亦易矣;不学,则易者亦难矣。

  • 博客(176)
  • 资源 (1)
  • 收藏
  • 关注

原创 18年最新人工智能行业报告

链接:https://pan.baidu.com/s/1_9b80HSz0s9Kf98aHtTa6g 密码:59s3

2018-10-02 18:11:04 350

原创 数据挖掘/机器学习/深度学习入门、进阶电子书大全

链接:https://pan.baidu.com/s/1KEip4oDkmD48Y1sj8gDXbQ 密码:bhew

2018-10-02 18:06:08 563 1

原创 Hadoop、Spark大数据入门、进阶电子书大全

链接:https://pan.baidu.com/s/1SIXWtxh31aCR_7_CJasFGg 密码:u12k

2018-10-02 18:02:08 3063 3

原创 Apache Ambari——Hadoop简易安装、监控工具

背景最近在做关于Hadoop集群的可视化部署相关的调研,发现了Ambari这个有趣的东西,在使用的过程中,整理了一部分功能列表,在此分享。欢迎光顾 我的博客Ambari简介Ambari是Hortonworks开源的Hadoop平台的管理软件,具备Hadoop组件的安装、管理、运维等基本功能,提供Web UI进行可视化的集群管理,简化了大数据平台的安装、使用难度。功能列表操作级别:Hos...

2018-10-02 17:56:21 3518

原创 Linux不同发行版本:CentOS、Ubuntu、Debian

Linux有非常多的发行版本,从性质上划分,大体分为由商业公司维护的商业版本与由开源社区维护的免费发行版本。商业版本以Redhat为代表,开源社区版本则以debian为代表。这些版本各有不同的特点,在不同的应用领域发挥着不同的作用,不能一概而论。而绝大多数VPS上只提供开源社区维护的发行版本。下面就这些不同的Linux发行版进行简单的分析。UbuntuUbuntu近些年的粉丝越来越多,Ubu...

2018-10-02 17:50:07 1154 1

原创 RPC 框架简介

远程过程调用协议RPC(Remote Procedure Call Protocol)首先了解什么叫RPC,为什么要RPC,RPC是指远程过程调用,也就是说两台服务器A,B,一个应用部署在A服务器上,想要调用B服务器上应用提供的函数/方法,由于不在一个内存空间,不能直接调用,需要通过网络来表达调用的语义和传达调用的数据。比如说,一个方法可能是这样定义的:Employee getEmployee...

2018-10-02 16:15:22 373

原创 hadoop SequenceFile 简介/优缺点

1. 什么是SequenceFile1.1.sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件(Flat File)。1.2.可以把SequenceFile当做是一个容器,把所有的文件打包到SequenceFile类中可以高效的对小文件进行存储和处理。1.3.SequenceFile文件并不按照其存储的Key进行排序存储,Sequenc...

2018-09-27 11:05:53 10330 2

原创 处理海量小文件——本地文件读成sequenceFile文件

个人观点:当处理海量小文件时,先将小文件进行sequenceFile操作或者类似操作处理,然后再上传到HDFS系统进行下一步的处理。(如有其它建议,欢迎留言)一、直接上传本地栅格数据将导致的问题根据栅格数据的特点,每层的图片个数都为上层数量的四倍。在第20层时,仅仅第20层的图片的数量达到了“2199023255552”张(世界地图在第一层被切成了两张图片,第二十层的数量为:4**7*2),且...

2018-09-27 08:34:54 1061

原创 Maven学习

Apache Maven 是一种创新的软件项目管理工具,提供了一个项目对象模型(POM)文件的新概念来管理项目的构建,相关性和文档。最强大的功能就是能够自动下载项目依赖库学习资料:https://www.yiibai.com/maven/...

2018-09-25 17:33:35 134

原创 近期读书计划(2018.9.11~)

买了几本书,其实大多我都有电子版的,只是这几本书都算得上经典(特别是那两本O’Reilly,其实好多时候学了好多东西,编程细节经常容易遗忘,实际开发中还是手边有个几本知识比较系统的手册书翻查一下合适)《Spark SQL内核剖析》是刚刚上市的,但是翻看了下目录,感觉确实值得读一下,毕竟大数据这块只搞点应用级的代码没啥意思,还是的深入到内核、架构,书评随后写《算法图解》这块之所以看,是因...

2018-09-11 11:32:42 383

原创 coursera——Image and Video Processing

最近一直在刷coursera上的Image and Video Processing(https://www.coursera.org/learn/image-processing/home/welcome),收获还可以,主要是掌握了图像的一些去噪、修复、边缘分割思想,最重要的启发主要还是把图像从二维数组从另一个角度去看:三维几何体(三维:x、y坐标+Z:gray值),进而可以使用一系列的立体几何...

2018-09-10 15:47:07 1003

原创 Coursera : Image and Video Processing学习笔记

之前软件杯做OCR识别,图片预处理比较的难搞的情况就是,那种在光照不均匀的环境(或者闪光灯)下导致图像呈现由光照中心由亮变暗的亮度不均匀图像的处理办法,使用基于滑动窗口的局部二值化...

2018-09-08 11:41:58 621

原创 是要成为海贼王的男人——日记4.24~4.28

这几天看论文:https://github.com/SnailTyan/deep-learning-papers-translation DenseNet https://zhuanlan.zhihu.com/p/31647627

2018-04-27 09:48:33 350 2

原创 是要成为海贼王的男人——日记4.23

A.M 学习旅程: CTPN继续学习:https://zhuanlan.zhihu.com/p/31915483非极大值抑制(NMS) :https://blog.csdn.net/shuzfan/article/details/52711706深度学习论文翻译,包括分类论文,检测,OCR论文推荐一波: https://github.com/SnailTyan/deep-learni...

2018-04-23 10:51:36 349

原创 是要成为海贼王的男人——日记4.22

号外:其实一直在打Datacastle上的一个比赛,目前第五,但是最近几天暂时不打算打上去,一个周之内,绝对会冲进前三A.M 烦炸了。。。。。。。。还是昨天那个CRNN项目,warp-ctc的依赖 编译的时候老是TMD出问题,所以一上午木得了。 所以 我TMD今天决定皮一手‘make,makefile和程序的编译链接过程‘的学习,木得办法。学习目标:一、make,makefile和...

2018-04-22 17:40:19 509

原创 是要成为海贼王的男人——日记4.21

A.M:学习目标:研究一手CRNN,昨天读了CRNN的论文 (https://blog.csdn.net/quincuntial/article/details/77679463),今天 主要皮一手chinese-ocr的源码,它的效果确实很好玩: CRNN效果一(基于图像的序列识别): 项目地址: https://github.com/JiHanFly/chinese-oc...

2018-04-21 12:12:52 349

原创 DataSet 实质解读

参考资料:http://www.jianshu.com/p/77811ae29fddhttp://blog.csdn.net/zg_hover/article/details/54405224?locationNum=10&fps=1http://geek.csdn.net/news/detail/96754

2017-10-24 21:38:59 354

原创 Spark SQL Catalyst深入理解

阅读材料: SparkSQL – 从0到1认识Catalyst http://www.dataguru.cn/article-10731-1.html此篇文章介绍了Spark SQL如何将SQL语句转化为Spark物理执行计划的详细过程重点归纳: sqltext 经过 parser 得到 语法树(unresolvedlogicalplan),unre

2017-10-22 20:51:43 1247

原创 Spark SQL程序SBT编译打包优秀博文总结

理论: 不同的操作系统、cpu体系对编译过程有着什么样的影响? http://kb.cnblogs.com/page/72579/ 打包实例: IDEA调试sparksql,打包并提交运行 http://blog.csdn.net/weipanp/article/details/45098669 进阶: 使

2017-10-14 11:01:53 570

转载 rdd依赖关系、stage划分、stage任务执行揭秘

rdd依赖关系、stage划分、stage任务执行揭秘

2017-09-30 16:03:15 653

转载 范围分区、hash分区等概念

原作者:http://keepwork.iteye.com/blog/1949489 一、使用分区的优点:1、增强可用性:如果表的某个分区出现故障,表在其他分区的数据仍然可用;2、维护方便:如果表的某个分区出现故障,需要修复数据,只修复该分区即可;3、均衡I/O:可以把不同的分区映射到磁盘以平衡I/O,改善整个系统性能;4、改善查询性能:对分区对象的查询可以仅搜索自己关心的分区,提高检索速度。二

2017-09-30 16:00:38 13595

转载 Hadoop支持的多种文件系统URI格式

org.apache.hadoop.fs.FileSystem这个抽象类代表hadoop的一个文件系统,目前系统已经有很多个具体实现:文件系统 URI前缀 hadoop的具体实现类Local file fs.LocalFileSystemHDFS h

2017-09-26 10:16:23 1356

原创 scala文档阅读笔记

Scala被编译成字节码文件.class后在Java虚拟机上运行, 许多现有公司依靠Java进行关键业务应用转向或正在转向Scala,以提高其开发生产力,应用程序可扩展性和整体可靠性Scala可以执行Java代码 Scala能够使用Java SDK的所有类以及自定义Java类,或您最喜欢的Java开源项目● 闭包 - 闭包是一个函数,其返回值取决于在此函数之外声明的一个或多个变量的值。 ●

2017-09-26 10:14:40 543

原创 python——自写数据库(带平衡树索引)

界面展示 : Hello, DBMS(byGreat!Great!Great!Han!!!!!!!!!!!!!!!!!) 为您服务!!!username: jihan password: 123456 登陆成功 欢迎您,尊敬的超级管理员 jihan Sql_Service>>>help ___________________________________本次SQL服务结果__

2017-09-08 15:56:15 420

转载 Scala 闭包概念

1、闭包是一个有状态(不消失的私有数据)的函数。2、闭包是一个有记忆的函数。3、闭包相当于一个只有一个方法的紧凑对象(a compact object)。举例: 已知一个函数 f( x ) = x + i ,让你求 f(3) = 3+i。分析:要得到最终的函数值,你必须知道i的值。i称作开放项(“开”着的,对应闭包的“闭”),若上文中定义了“ inti = 1” ,则可以得到f(3)

2017-09-08 15:28:38 509

转载 scala _下划线含义

map(._2) 等价于 map(t => t._2) //t是个2项以上的元组map(.2, ) 等价与 map(t => t.2, t) //这会返回第二项为首后面项为旧元组的新元组._n 为获取元组第n项 则为eta-conversion (lambda表达式支持的一种变换 )的入参缩写形式,scala里 a => foo(a) 经过eta-conversion后,直接就是右边的函数名foo,

2017-09-08 08:39:39 912

转载 5款开源的PHP网站流量统计应用程序

下面是5款开源的PHP网站流量统计应用程序。piwikPiwik 是一套基于Php+MySQL技术构建的开源网站访问统计系统,前身是phpMyVisites。Piwik可以给你详细的统计信息,比如网页浏览人数, 访问最多的页面, 搜索引擎关键词等等,并且采用了大量的AJAX/Flash技术,使得在操作上更加便易。此外,它还采用了插件扩展及开放API架构,可以让开发人员根据自已的实际需求创建更多的功能

2017-09-07 10:29:19 3200

原创 scala:Object与Class的区别

1.在Scala中声明private变量,Scala编译器会自动生成get,set方法 2.在Scala中变量需要初始化 3.在Scala中没有静态修饰符,在object下的成员全部都是静态的,如果在类中声明了与该类相同的名字的object则该object是该类的”伴生对象” 可以理解为Scala把类中的static集中放到了object对象中,伴生对象和类文件必须是同一个源文件,可以用伴生

2017-09-06 18:04:48 18463

转载 MAVEN包管理工具

配置Maven环境变量与Intelij IDE配置Mavenhttp://www.cnblogs.com/qiuyong/p/6292678.html在IDEA中向已存在项目添加Maven支持 右击项目,添加 框架支持,选择maven

2017-09-06 10:26:23 523

原创 SparkSQL:如何找到与Spark版本对应的jar包

方法:进入Spark官网,下载对应版本的Spark,注意相应版本号,以及直接下载预编译的版本,不要下源码包 下载之后,解压,到该文件夹下的jars目录,对应Spark版本的相应jar包均在其中,再导入IDE既可以进行开发了

2017-09-06 09:18:33 73641

翻译 【Spark 2.0官方文档】Spark SQL、DataFrames以及Datasets指南

文档说明本文是基于《Spark 官方文档》Spark SQL, DataFrames 以及 Datasets 编程指南 这篇文章翻译而来。 原文中关于R语言的部分本文档全都省略。 由于个人水平有限,有些地方难免翻译的不准确,烦请指正。概述 Spark SQL 是 Spark 用于处理结构化数据的一个模块。不同于基础的 Spark RDD API,Spark SQL 提供的接口提供了更多关于数据和

2017-09-06 08:46:35 61498

原创 Spark快速大数据分析——读书笔记

——8.16开始整理 Spark快速大数据分析推荐序: 一套大数据解决方案通常包含多个组件,从存储、计算和网络硬件层,到数据处理引擎,再到利用改良的统计和计算算法、数据可视化来获得商业洞见的分析层,这其中数据处理引擎起到了十分重要的作用,毫不夸张的说数据处理引擎至于大数据就相当于CPU之于计算机spark起源: 2009年加州大学伯克利分校AMPlab 创立spark大数据处理和计算框架。不同

2017-08-19 21:18:13 4990

原创 Linux 下 zip 文件解压产生中文乱码解决方案

unar方法1.安装unar yum install unar这个最简单省力,默认debian已经安装了额unar,这个工具会自动检测文件的编码,也可以通过-e来指定2.用unar解压unar file.zip即可解压出中文文件。

2017-08-16 14:48:26 73617 1

原创 spark 入门、深入学习书籍pdf-2017最强大礼包(精选当当Top10)

大礼包内含书目:Apache Spark源码剖析.pdf深入理解Spark:核心思想与源码分析.pdfSpark快速大数据分析.pdfSpark高级数据分析.pdf数据算法--Hadoop-Spark大数据处理技巧Spark大数据处理:技术、应用与性能优化(全).pdfSpark技术内幕 深入解析Spark内核架构设计与实现原理.pdf下载地址: http://pan.baidu.

2017-08-15 18:33:09 5941 3

原创 HDFS、YARN、MapReduce原理--读书笔记

8.13 大数据工程师/hadoop工程师 目的:高效的存储、处理这些海量、多种类、高速流动的数据 hadoop来源google 03~06 年 的三篇论文 hadoop利用分而治之的朴素思想为大数据处理提供了一整套新的解决方案,分布式文件系统HDFS、分布式计算框架MapReduce、NoSQL数据库HBase、数据仓库工具Hive等 hadoop主要组件:HDFS、MapReduce、

2017-08-15 10:30:04 1144

原创 Linux笔记

1.高级格式化:高级格式化又称逻辑格式化,它是指根据用户选定的文件系统(FAT12、FAT16、FAT32、NTFS、EXT2、EXT3)在磁盘特定区域写入特定数据,以达到初始化磁盘或磁盘分区、清除原磁盘或磁盘分区所有文件的一个操作。高级格式化包括对住主引导记录中分区表相应区域的重写、根据用户选定的文件系统,在分区中划出一片用于存放文件分配表、目录表等用于文件管理的磁盘空间,以便用户使用该分区管理文

2017-08-08 14:04:09 69939

转载 centos运行不了setup命令?怎么安装setup tools

命令:yum install setuptool详情:详情请见

2017-08-06 11:39:15 1191

转载 linux 系统tty、pty和pts 的概念及区别

tty(终端设备的统称): tty一词源于Teletypes,或者teletypewriters,原来指的是电传打字机,是通过串行线用打印机键盘通过阅读和发送信息的东西,后来这东西被键盘与显示器取代,所以现在叫终端比较合适。 终端是一种字符型设备,它有多种类型,通常使用tty来简称各种类型的终端设备。 tty指的是七个alt+crtl+F1~F7。 tty1-tty6表示文字界面,可以用Ct

2017-08-06 09:23:55 1395

转载 linux i节点(inode)

linux i节点(inode)

2017-08-04 09:07:13 596

原创 阿里云apache服务器外网无法访问(配置安全组,添加80服务)

背景:暑假 给学校校长办公室做网站,因为都回家,外网需要能访问到的原因,所以把 网站搬到了阿里云主机上CentOS的系统 ,已经安装好了 apache php mysql常规排错过程(ps:没耐心的童鞋请直接看最后一步,学习在阿里云控制台配置 安全组,允许 http服务)第一步:检查apache mysql php 服务是否开启 命令:netstat -anlp 命令执行结果: 如图所示: h

2017-08-03 16:14:10 8607 1

cms 源码解读

CMS源码解读

2016-11-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除