自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

光于前裕于后的博客

改掉白嫖陋习,注重分享质量

  • 博客(250)
  • 资源 (18)
  • 收藏
  • 关注

原创 使用python获取pdf上的文字(in win10)

环境版本: WIN10 | Python 3.6 | ImageMagick-6.9.9-38-Q8-x64-dll | Ghostscript 9.22 for Windows 整体思路:1.将PDF转为图片后进行文字识别 | 2.使用pdfminer解析pdf文件(准确率更高)目录1.下载安装tesseract2.安装pyocr、Wand、Pillow3...

2018-03-17 22:09:25 7909 2

原创 SolrCloud Collection 创建

环境版本: CDH 5.12.0; Solr 4.10.3

2017-11-29 19:38:18 3990 8

原创 Flume+Kakfa+Spark Streaming整合(运行WordCount小例子)

环境版本:Scala 2.10.5; Spark 1.6.0; Kafka 0.10.0.1; Flume 1.6.0

2017-11-21 21:08:00 926 5

原创 Spark MLlib - Iris(鸢尾花卉)数据集 LogisticRegression(逻辑回归)

所用数据:http://download.csdn.net/download/dr_guo/9946656环境版本:Spark 1.6.1; Scala 2.10.4; JDK 1.7

2017-08-23 15:30:45 5082

原创 Spark 分层抽样与求最大值最小值

详见注释package com.beagledata.sparkimport org.apache.spark.{SparkConf, SparkContext}/** * 分层抽样 * * Created by drguo on 2017/8/21. * blog.csdn.net/dr_guo */object PCSStratifiedSampling { val c

2017-08-21 16:05:38 3453

原创 Spark处理XML文件与XLSX/XLS文件

方法有很多,现提供一种比较简单的方法。

2017-08-18 17:29:43 10690 1

原创 Oracle表空间释放与增加表空间大小

1.drop表后并没有释放磁盘空间,这时可以通过缩小表空间释放磁盘存储注:一个表空间可以有多个datafile查看所有的datafile,找到你要缩小的datafileselect file#, name from v$datafile从上面获得要缩小的文件id是4,查看此文件有多少个blockselect max(block_id) from dba_extents where file_i

2017-04-20 10:35:28 9696 3

原创 Ranger用户同步于LDAP

LDAP[root@hdp certs]# ldapsearch -x -b "dc=wondersoft,dc=cn"。。。# trust admins, groups, accounts, wondersoft.cndn: cn=trust admins,cn=groups,cn=accounts,dc=wondersoft,dc=cncn: trust adminsobjectCla

2017-02-22 14:47:58 6020 5

原创 Ambari安装freeIPA

环境:Ambari-2.4.2、HDP-2.5.3、CentOS 6.5freeIPA包含了Kerberos、ldap等服务,经调研感觉可以用它来做认证和统一用户管理,用户都存在freeIPA的ldap中。

2017-02-22 11:38:30 5738 9

原创 Kerberos与Ranger、KMS整合

环境:Ambari-2.4.2、HDP-2.5.3、CentOS 6.51.之前用的是HDP2.4,装上Kerberos后Ranger的策略就失效了,KMS对秘钥也无法管理(WEB端),总感觉是因为哪里没配置好,但装装卸卸好多遍还是不行。http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.3/bk_command-line-upgrade/c

2017-02-07 11:56:15 7795 4

原创 使用Ambari给HDP集群安装Kerberos

环境:Amabri 2.2.2、HDP 2.4.2、CentOS 6.5

2016-12-09 10:28:05 8050 26

原创 Hadoop单机、伪分布式集群搭建(十分详细)

要搭建Hadoop HA集群请戳这今天终于把老师布置的项目做完了,闲来无事在机房的电脑上装了Ubuntu(用EasyBCD步骤非常简单,请自行百度),上学期在虚拟机上装了Hadoop,现在可以在实体机搭个伪分布式了。下面我就一边搭建一边写怎么搭建Hadoop伪分布模式。1.下载jdk并安装去官网下就可以了,下完之后把文件移到/opt/Java下guo@guo

2016-11-25 17:15:34 18928 5

原创 异常用户发现(Spark MLlib+Spark SQL+DataFrame)

整体思路:对原始数据提取特征后,使用KMeans做聚类,把元素明显少的类视为异常类,类中的用户视为异常用户,打上标签,之后用随机森林进行分类,训练出模型后对新数据进行分类,找出异常用户。

2016-11-25 16:47:31 3704

原创 Spark MLlib RandomForest(随机森林)建模与预测

我要做的是发现异常用户,而我们之前没有已经打上异常不异常标签的样本,所以对原始数据进行清洗、特征工程、降维后用Mahout/R做的聚类,打上了标签,本来打算继续用Mahout/R做分类,Mahout太慢,而用R实现KNN、RandomForest之后发现无法应用到真实项目上,所以用了MLlib。下面是用R获取正负样本#1.将kmeans标出的异常类标为1作为正样本,其它类标为0作为负样本#1.1

2016-11-21 12:03:57 8231 4

原创 用R语言对高维数据进行降维聚类展示

【为什么要降维】 *维数灾难:在给定精度下,准确地对某些变量的函数进行估计,所需样本量会随着样本维数的增加而呈指数形式增长。 *降维的意义:克服维数灾难,获取本质特征,节省存储空间,去除无用噪声,实现数据可视化 强烈推荐几篇博客: https://www.douban.com/note/469279998/ http://bindog.github.io/blog/2016/06/04/f

2016-10-26 12:22:29 12283 3

原创 Mahout K-Means输出结果解析

怎么使用Mahout做聚类有空我会专门写的,这篇博客主要为了讲一下Mahout处理的结果。 Mahout版本为0.9,数据没做归一化、标准化,只是为了测试。输出目录下有clusteredPoints、cluster-x、cluster-(x+1)-final等几个文件夹,x表示第x次迭代,每次的迭代结果都会存到cluster-x,最后一次(x+1)迭代结果存在cluster-(x+1)-final

2016-10-19 17:12:09 4270

原创 Flume常见错误整理(持续更新ing...)

进来看!

2016-08-12 17:46:10 24293

原创 使用Flume向HDFS持久化数据(日志)

1.去官网下载Flume(使用Flume需安装jdk1.6以上版本) 2.解压后进入其根目录新建checkpoint和dataDi目录 3.进入conf目录,新建hdfs_sink.confagent.sources = r1agent.channels = c1agent.sinks = k1agent.sources.r1.type = execagent.sources.r1.com

2016-08-05 17:00:43 1655

原创 Hadoop与MongoDB整合(Hive篇)

1.背景公司希望使用MongoDB作为后端业务数据库,使用Hadoop平台作为数据平台。最开始是先把数据从MongoDB导出来,然后传到HDFS,然后用Hive/MR处理。我感觉这也太麻烦了,现在不可能没有人想到这个问题,于是就搜了一下,结果真找到一个MongoDB Connector for Hadoop2.MongoDB简介–摘自邹贵金的《mongodb》一书NoSQL数据库与传统的关系型数据库

2016-06-17 11:33:30 29497 11

原创 用R进行多元线性回归分析建模

概念:多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。

2016-05-31 22:20:37 52372 2

原创 Spark SQL简单操作演示(含导出表)

Spark SQL前身是Shark,由于Shark对于Hive的太多依赖制约了Spark的发展,Spark SQL由此产生。Spark SQL只要在编译的时候引入Hive支持,就可以支持Hive表访问,UDF,SerDe,以及HiveQL/HQL

2016-05-15 22:10:43 20428 3

原创 Spark SQL与Hive On MapReduce速度比较

我们都知道Spark比Hadoop的MR计算速度更快。到底快多少呢?我一直比较疑惑,会有官网说的那么夸张吗。今天就拿基于Spark的Spark SQL和基于MR的Hive比较一下,因为Spark SQL也兼容了HiveQL,我们就可以通过运行相同的HiveQL语句,比较直观的看出到底快多少了。Spark SQL只要在编译的时候引入Hive支持,就可以支持Hive表访问,UDF,Ser...

2016-05-15 16:23:24 7698

原创 SparkR初体验

突然有个想法,R只能处理百万级别的数据,如果R能运行在spark上多好!搜了下发现13年SparkR这个项目就启动了,感谢美帝!1.你肯定得先装个spark吧。看这:Spark本地模式与Spark Standalone伪分布模式2.你肯定得会R吧。看这:R语言入门3.启动SparkR就可以了guo@drguo:/opt/spark-1.6.1-bin-hadoop2.6$ ./bin/sparkR #这样直接运行应该是默认在本地运行,要在集群上运行应该和spark-shell一样,后面加点参数 --

2016-05-11 20:41:19 20865 7

原创 Spark Standalone与Spark on YARN的几种提交方式

进来看!

2016-04-26 22:06:46 8582 6

原创 Spark Standalone完全分布模式

红字部分来源于:董的博客目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算

2016-04-24 20:41:31 1833

原创 Spark本地模式与Spark Standalone伪分布模式

spark的本地模式类似于hadoop的单机模式,是为了方便我们调试或入门的。1.先去官网下载下来http://spark.apache.org/downloads.html,不要下错了,下载pre-built(这是已经编译好了,产生了二进制文件的)for 你的hadoop版本。

2016-04-23 21:25:53 14181

原创 Hive差集运算详解

我们先来了解一下什么是差集差集定义:一般地,设A,B是两个集合,由所有属于A且不属于B的元素组成的集合,叫做集合A减集合B(或集合A与集合B之差),类似地,对于集合A.B,我们把集合{x/x∈A,且x¢B}叫做A与B的差集,记作A-B记作A-B(或A\B),即A-B={x|x∈A,且x ¢B}(或A\B={x|x∈A,且x ¢B} B-A={x/x∈B且x¢A} 叫做B与A的差集

2016-04-18 21:39:52 31055 4

原创 MapReduce Input Split(输入分/切片)详解

看了很多博客,感觉没有一个说的很清楚,所以我来整理一下。Hadoop 2.x默认的block大小是128MB,Hadoop 1.x默认的block大小是64MB,可以在hdfs-site.xml中设置dfs.block.size,注意单位是byte。分片大小范围可以在mapred-site.xml中设置,mapred.min.split.size mapred.max.split.size,minSplitSize大小默认为1B,maxSplitSize大小默认为Long.MAX_VALUE = 92

2016-04-14 13:56:44 36955 3

原创 天池新人实战赛——阿里移动推荐算法大赛(离线赛与平台赛)

竞赛题目 (离线赛与平台赛题目一样,只是数据量不一样,离线2000w+条数据,平台11亿+条数据)在真实的业务场景下,我们往往需要对所有商品的一个子集构建个性化推荐模型。在完成这件任务的过程中,我们不仅需要利用用户在这个商品子集上的行为数据,往往还需要利用更丰富的用户行为数据。定义如下的符号:U——用户集合I——商品全集P——商品子集,P⊆ID——用户对商品全集的行为数据集合...

2016-04-13 17:04:23 14815 10

原创 Kafka集群搭建及简单使用(控制台与Java客户端)

官方文档:http://kafka.apache.org/documentation.html#introductionKafka其实就是分布式的消息队列,如果不知道消息队列请看这:http://blog.csdn.net/dr_guo/article/details/507636791.下载去官网下载即可2.解压3.配置环境变量/etc/profile4.安装zo

2016-04-03 16:15:16 3406

原创 Storm集群搭建

1.下载去官网下载即可2.解压3.配置环境变量/etc/profile4.安装zookeeperZooKeeper完全分布式集群搭建5.修改配置文件conf/下的storm.yaml#所使用的zookeeper集群主机storm.zookeeper.servers: - "drguo3" - "drguo4" - "drguo5"

2016-04-01 23:00:00 623

原创 使用Sqoop将数据在HDFS与MySQL互导

1.去官网下载sqoop,直接百度即可2.解压后进入conf目录guo@drguo1:/opt/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/conf$ cp sqoop-env-template.sh sqoop-env.sh3.在sqoop-env.sh添加各种home#Set path to where bin/hadoop is avail

2016-03-29 15:21:24 4745

原创 HBase HA高可用集群搭建及HBase Shell简单使用

1.先搭建Hadoop HA集群(包含ZooKeeper搭建),请看这:Hadoop HA高可用集群搭建(2.7.2)2.我只有五台机器,所以是这么规划的:drguo1/2 HMaster drguo3/4/5 HRegionServer3.先在drguo1上安装配置好之后,再拷给2/3/4/5。4.正式开始4.1去官网下载HBase,最低要0.96版本,之前版本不支持Ha

2016-03-27 17:28:28 6272 5

原创 Hive UDF自定义函数编写小例子

感谢段海涛老师~先写一个java类,定义函数逻辑(静态代码块模拟字典)package club.drguo.hive;import java.util.HashMap;import org.apache.hadoop.hive.ql.exec.UDF;//club.drguo.hive.PhoneNumToAreapublic class PhoneNumToArea exte

2016-03-26 22:03:25 3002

原创 Hadoop HA高可用集群搭建(2.7.2)

1.集群规划:2.前期准备:3.搭建zookeeper集群(drguo3/drguo4/drguo5)

2016-03-24 22:33:12 17603 5

原创 ZooKeeper完全分布式集群搭建

前面一样的我就不写了,请戳这里zookeeper伪分布配置

2016-03-24 21:23:30 6791 1

原创 OpenStack自动化部署----单节点的自动安装(DevStack)+apt-get更换源

1.apt-get更换源guo@drguo1:~$ sudo gedit /etc/apt/sources.list换成网易源deb http://mirrors.163.com/ubuntu/ precise-updates main restricteddeb-src http://mirrors.163.com/ubuntu/ precise-updates main res

2016-03-22 21:17:24 2551 1

原创 HDFS小文件过多的危害和解决方案

小文件过多的危害你知道吗~

2024-06-14 09:31:24 685

原创 在Hive中使用Python编写的UDF函数

在Hive中使用Python编写的UDF函数,需要通过Hive的brickhouse库来实现。brickhouse库提供了一种将Python UDF函数与Hive集成的方法。

2024-03-18 14:14:07 896

原创 Presto SQL 常见报错汇总

Presto SQL 常见问题汇总,持续更新中...

2023-03-02 13:43:50 2779 4

jce8&mysql.zip

含jce_policy-8.zip,mysql57-community-release-el7-8.noarch.rpm,mysql-connector-java-5.1.39.jar

2021-05-20

py4j-0.10.9.1-py2.py3-none-any.whl

py4j,python2和3都可使用,安装py4j:pip install py4j-0.10.9.1-py2.py3-none-any.whl

2021-02-09

pyspark相关包.zip

在Windows下安装使用pyspark所依赖的软件,含python-3.7.2-amd64.exe,scala-2.11.8.msi,spark-2.4.0-bin-hadoop2.7.tgz,winutils-master.zip,其中winutils-master.zip中有hadoop-2.6.0到hadoop-3.0.0各版本,使用说明详见:drguo.blog.csdn.net/article/details/113769453

2021-02-09

eagle-0.5.0-bin.tar.gz

编译好的apache eagle 0.5.0,可直接解压执行,使用说明详见:https://drguo.blog.csdn.net/article/details/109995776

2020-11-25

eagle-0.5.1-SNAPSHOT-bin.tar.gz

编译好的apache eagle 0.5.1,可直接解压执行,使用说明详见:https://drguo.blog.csdn.net/article/details/109995776

2020-11-25

libfb303-0.9.3.jar

Thrift is a software framework for scalable cross-language services development.hive 1.x以上用这个代替libfb303.jar

2019-11-13

libfb303.jar

解决使用flume sink到hive时缺少jar包的错误,Caused by: java.lang.ClassNotFoundException: com.facebook.fb303.FacebookServiceIface

2019-11-05

Flume采集MySQL数据所需jar包.zip

Flume采集MySQL数据所需jar包,含flume-ng-sql-source-1.5.2.jar,mysql-connector-java.jar

2019-10-21

libclntsh.so.11.1

你是否还在为报错sqlplus: error while loading shared libraries: libclntsh.so.11.1: cannot open shared object file: No such file or directory而犯愁,不用犯愁了,赶紧下载吧!

2019-08-01

linux.x64_11gR2_database Centos6.5 Oracle11g

Centos6.5 离线安装 Oracle11g 所需安装包,共两个,全部解压即可使用。

2019-08-01

Centos6.5-Oracle11g离线安装所需依赖rpm包.zip

CentOS6.5 linux.x64_11gR2_database Oracle11g 离线安装所需的所有依赖包,亲测可用。

2019-08-01

cats_and_dogs_filtered.zip

摘自Kaggle上的“狗vs猫”数据集25000张图片中的3000张图片,包含训练集2000张(猫狗各一千)、验证集1000张(猫狗各五百)

2019-05-28

fashion-mnist.zip

fashion mnist数据集,有T恤、短靴等10个类别图像,每张图片为28*28像素的灰阶图像,共70000张图像。 使用见:https://drguo.blog.csdn.net/article/details/89337427

2019-05-28

jdata_product.csv

2019京东JDATA算法大赛(用户对品类下店铺的购买预测)商品表,比赛总结:https://drguo.blog.csdn.net/article/details/90514911。 其余数据下载:https://pan.baidu.com/s/1mQf-haFZP38er7FMDxpQWg 提取码:mxlo

2019-05-27

ambari离线安装solr所需文件

解压后可以获得solr.tgz和SOLR-github文件夹,具体使用方法请看我置顶博客 blog.csdn.net/dr_guo

2018-09-05

mysql离线安装rpm包

MySQL及依赖 rpm包,含MySQL-client-5.6.31-1.el6.x86_64.rpm、MySQL-devel-5.6.31-1.el6.x86_64.rpm、MySQL-server-5.6.31-1.el6.x86_64.rpm、net-tools-2.0-0.22.20131004git.el7.x86_64.rpm、mysql-connector-java-5.1.39.jar、mysql-connector-odbc-5.3.6-linux-el6-x86-64bit.tar.gz

2018-07-05

ntp离线安装rpm包

NTP及依赖rpm包,含autogen-libopts-5.18-5.el7.x86_64.rpm、ntp-4.2.6p5-18.el7.centos.x86_64.rpm、ntpdate-4.2.6p5-18.el7.centos.x86_64.rpm

2018-07-05

iris(鸢尾花卉)数据集-二分类

该数据集只保留了原来iris(鸢尾花卉)数据集3个类virginica,versicolor和setosa中的versicolor和setosa,并将versicolor用0.0表示,setosa用1.0表示。每类50个样本;每个样本是一个4维的特征向量,萼片长,萼片宽,花瓣长,花瓣宽;

2017-08-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除