光于前裕于后-CSDN博客

原创使用python获取pdf上的文字(in win10)

环境版本： WIN10 | Python 3.6 | ImageMagick-6.9.9-38-Q8-x64-dll | Ghostscript 9.22 for Windows 整体思路：1.将PDF转为图片后进行文字识别 | 2.使用pdfminer解析pdf文件（准确率更高）目录1.下载安装tesseract2.安装pyocr、Wand、Pillow3...

2018-03-17 22:09:25 7909 2

原创 SolrCloud Collection 创建

环境版本： CDH 5.12.0; Solr 4.10.3

2017-11-29 19:38:18 3990 8

原创 Flume+Kakfa+Spark Streaming整合（运行WordCount小例子）

环境版本：Scala 2.10.5; Spark 1.6.0; Kafka 0.10.0.1; Flume 1.6.0

2017-11-21 21:08:00 926 5

原创 Spark MLlib - Iris（鸢尾花卉）数据集 LogisticRegression（逻辑回归）

所用数据：http://download.csdn.net/download/dr_guo/9946656环境版本：Spark 1.6.1; Scala 2.10.4; JDK 1.7

2017-08-23 15:30:45 5082

原创 Spark 分层抽样与求最大值最小值

详见注释package com.beagledata.sparkimport org.apache.spark.{SparkConf, SparkContext}/** * 分层抽样 * * Created by drguo on 2017/8/21. * blog.csdn.net/dr_guo */object PCSStratifiedSampling { val c

2017-08-21 16:05:38 3453

原创 Spark处理XML文件与XLSX/XLS文件

方法有很多，现提供一种比较简单的方法。

2017-08-18 17:29:43 10690 1

原创 Oracle表空间释放与增加表空间大小

1.drop表后并没有释放磁盘空间，这时可以通过缩小表空间释放磁盘存储注：一个表空间可以有多个datafile查看所有的datafile，找到你要缩小的datafileselect file#, name from v$datafile从上面获得要缩小的文件id是4，查看此文件有多少个blockselect max(block_id) from dba_extents where file_i

2017-04-20 10:35:28 9696 3

原创 Ranger用户同步于LDAP

LDAP[root@hdp certs]# ldapsearch -x -b "dc=wondersoft,dc=cn"。。。# trust admins, groups, accounts, wondersoft.cndn: cn=trust admins,cn=groups,cn=accounts,dc=wondersoft,dc=cncn: trust adminsobjectCla

2017-02-22 14:47:58 6020 5

原创 Ambari安装freeIPA

环境：Ambari-2.4.2、HDP-2.5.3、CentOS 6.5freeIPA包含了Kerberos、ldap等服务，经调研感觉可以用它来做认证和统一用户管理，用户都存在freeIPA的ldap中。

2017-02-22 11:38:30 5739 9

环境：Ambari-2.4.2、HDP-2.5.3、CentOS 6.51.之前用的是HDP2.4，装上Kerberos后Ranger的策略就失效了，KMS对秘钥也无法管理（WEB端），总感觉是因为哪里没配置好，但装装卸卸好多遍还是不行。http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.3/bk_command-line-upgrade/c

2017-02-07 11:56:15 7795 4

原创使用Ambari给HDP集群安装Kerberos

环境：Amabri 2.2.2、HDP 2.4.2、CentOS 6.5

2016-12-09 10:28:05 8050 26

原创 Hadoop单机、伪分布式集群搭建（十分详细）

要搭建Hadoop HA集群请戳这今天终于把老师布置的项目做完了，闲来无事在机房的电脑上装了Ubuntu（用EasyBCD步骤非常简单，请自行百度），上学期在虚拟机上装了Hadoop，现在可以在实体机搭个伪分布式了。下面我就一边搭建一边写怎么搭建Hadoop伪分布模式。1.下载jdk并安装去官网下就可以了，下完之后把文件移到/opt/Java下guo@guo

2016-11-25 17:15:34 18928 5

原创异常用户发现（Spark MLlib+Spark SQL+DataFrame）

整体思路：对原始数据提取特征后，使用KMeans做聚类，把元素明显少的类视为异常类，类中的用户视为异常用户，打上标签，之后用随机森林进行分类，训练出模型后对新数据进行分类，找出异常用户。

2016-11-25 16:47:31 3704

原创 Spark MLlib RandomForest（随机森林）建模与预测

我要做的是发现异常用户，而我们之前没有已经打上异常不异常标签的样本，所以对原始数据进行清洗、特征工程、降维后用Mahout/R做的聚类，打上了标签，本来打算继续用Mahout/R做分类，Mahout太慢，而用R实现KNN、RandomForest之后发现无法应用到真实项目上，所以用了MLlib。下面是用R获取正负样本#1.将kmeans标出的异常类标为1作为正样本，其它类标为0作为负样本#1.1

2016-11-21 12:03:57 8231 4

原创用R语言对高维数据进行降维聚类展示

【为什么要降维】 *维数灾难：在给定精度下，准确地对某些变量的函数进行估计，所需样本量会随着样本维数的增加而呈指数形式增长。 *降维的意义：克服维数灾难，获取本质特征，节省存储空间，去除无用噪声，实现数据可视化强烈推荐几篇博客： https://www.douban.com/note/469279998/ http://bindog.github.io/blog/2016/06/04/f

2016-10-26 12:22:29 12283 3

原创 Mahout K-Means输出结果解析

怎么使用Mahout做聚类有空我会专门写的，这篇博客主要为了讲一下Mahout处理的结果。 Mahout版本为0.9，数据没做归一化、标准化，只是为了测试。输出目录下有clusteredPoints、cluster-x、cluster-（x+1）-final等几个文件夹，x表示第x次迭代，每次的迭代结果都会存到cluster-x，最后一次（x+1）迭代结果存在cluster-（x+1）-final

2016-10-19 17:12:09 4270

原创 Flume常见错误整理（持续更新ing...）

进来看！

2016-08-12 17:46:10 24294

原创使用Flume向HDFS持久化数据（日志）

1.去官网下载Flume（使用Flume需安装jdk1.6以上版本） 2.解压后进入其根目录新建checkpoint和dataDi目录 3.进入conf目录，新建hdfs_sink.confagent.sources = r1agent.channels = c1agent.sinks = k1agent.sources.r1.type = execagent.sources.r1.com

2016-08-05 17:00:43 1655

原创 Hadoop与MongoDB整合（Hive篇）

1.背景公司希望使用MongoDB作为后端业务数据库，使用Hadoop平台作为数据平台。最开始是先把数据从MongoDB导出来，然后传到HDFS，然后用Hive/MR处理。我感觉这也太麻烦了，现在不可能没有人想到这个问题，于是就搜了一下，结果真找到一个MongoDB Connector for Hadoop2.MongoDB简介–摘自邹贵金的《mongodb》一书NoSQL数据库与传统的关系型数据库

2016-06-17 11:33:30 29497 11

原创用R进行多元线性回归分析建模

概念：多元回归分析预测法，是指通过对两个或两个以上的自变量与一个因变量的相关分析，建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时，称为多元线性回归分析。

2016-05-31 22:20:37 52372 2

原创 Spark SQL简单操作演示（含导出表）

Spark SQL前身是Shark，由于Shark对于Hive的太多依赖制约了Spark的发展，Spark SQL由此产生。Spark SQL只要在编译的时候引入Hive支持，就可以支持Hive表访问，UDF，SerDe，以及HiveQL/HQL

2016-05-15 22:10:43 20428 3

原创 Spark SQL与Hive On MapReduce速度比较

我们都知道Spark比Hadoop的MR计算速度更快。到底快多少呢？我一直比较疑惑，会有官网说的那么夸张吗。今天就拿基于Spark的Spark SQL和基于MR的Hive比较一下，因为Spark SQL也兼容了HiveQL，我们就可以通过运行相同的HiveQL语句，比较直观的看出到底快多少了。Spark SQL只要在编译的时候引入Hive支持，就可以支持Hive表访问，UDF，Ser...

2016-05-15 16:23:24 7698

原创 SparkR初体验

突然有个想法，R只能处理百万级别的数据，如果R能运行在spark上多好！搜了下发现13年SparkR这个项目就启动了，感谢美帝！1.你肯定得先装个spark吧。看这：Spark本地模式与Spark Standalone伪分布模式2.你肯定得会R吧。看这：R语言入门3.启动SparkR就可以了guo@drguo:/opt/spark-1.6.1-bin-hadoop2.6$ ./bin/sparkR #这样直接运行应该是默认在本地运行，要在集群上运行应该和spark-shell一样，后面加点参数 --

2016-05-11 20:41:19 20865 7

原创 Spark Standalone与Spark on YARN的几种提交方式

进来看！

2016-04-26 22:06:46 8582 6

原创 Spark Standalone完全分布模式

红字部分来源于：董的博客目前Apache Spark支持三种分布式部署方式，分别是standalone、spark on mesos和 spark on YARN，其中，第一种类似于MapReduce 1.0所采用的模式，内部实现了容错性和资源管理，后两种则是未来发展的趋势，部分容错性和资源管理交由统一的资源管理系统完成：让Spark运行在一个通用的资源管理系统之上，这样可以与其他计算

2016-04-24 20:41:31 1833

原创 Spark本地模式与Spark Standalone伪分布模式

spark的本地模式类似于hadoop的单机模式，是为了方便我们调试或入门的。1.先去官网下载下来http://spark.apache.org/downloads.html，不要下错了，下载pre-built（这是已经编译好了，产生了二进制文件的）for 你的hadoop版本。

2016-04-23 21:25:53 14181

原创 Hive差集运算详解

我们先来了解一下什么是差集差集定义：一般地,设A,B是两个集合,由所有属于A且不属于B的元素组成的集合,叫做集合A减集合B(或集合A与集合B之差),类似地,对于集合A.B,我们把集合{x/x∈A,且x￠B}叫做A与B的差集,记作A－B记作A－B(或A\B),即A－B＝{x|x∈A,且x ￠B}(或A\B＝{x|x∈A,且x ￠B} B－A＝{x/x∈B且x￠A} 叫做B与A的差集

2016-04-18 21:39:52 31056 4

原创 MapReduce Input Split（输入分/切片）详解

看了很多博客，感觉没有一个说的很清楚，所以我来整理一下。Hadoop 2.x默认的block大小是128MB，Hadoop 1.x默认的block大小是64MB，可以在hdfs-site.xml中设置dfs.block.size，注意单位是byte。分片大小范围可以在mapred-site.xml中设置，mapred.min.split.size mapred.max.split.size，minSplitSize大小默认为1B，maxSplitSize大小默认为Long.MAX_VALUE = 92

2016-04-14 13:56:44 36955 3

原创天池新人实战赛——阿里移动推荐算法大赛（离线赛与平台赛）

竞赛题目（离线赛与平台赛题目一样，只是数据量不一样，离线2000w+条数据，平台11亿+条数据）在真实的业务场景下，我们往往需要对所有商品的一个子集构建个性化推荐模型。在完成这件任务的过程中，我们不仅需要利用用户在这个商品子集上的行为数据，往往还需要利用更丰富的用户行为数据。定义如下的符号：U——用户集合I——商品全集P——商品子集，P⊆ID——用户对商品全集的行为数据集合...

2016-04-13 17:04:23 14815 10

原创 Kafka集群搭建及简单使用（控制台与Java客户端）

官方文档：http://kafka.apache.org/documentation.html#introductionKafka其实就是分布式的消息队列，如果不知道消息队列请看这：http://blog.csdn.net/dr_guo/article/details/507636791.下载去官网下载即可2.解压3.配置环境变量/etc/profile4.安装zo

2016-04-03 16:15:16 3406

原创 Storm集群搭建

1.下载去官网下载即可2.解压3.配置环境变量/etc/profile4.安装zookeeperZooKeeper完全分布式集群搭建5.修改配置文件conf/下的storm.yaml#所使用的zookeeper集群主机storm.zookeeper.servers: - "drguo3" - "drguo4" - "drguo5"

2016-04-01 23:00:00 623

原创使用Sqoop将数据在HDFS与MySQL互导

1.去官网下载sqoop，直接百度即可2.解压后进入conf目录guo@drguo1:/opt/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/conf$ cp sqoop-env-template.sh sqoop-env.sh3.在sqoop-env.sh添加各种home#Set path to where bin/hadoop is avail

2016-03-29 15:21:24 4745

原创 HBase HA高可用集群搭建及HBase Shell简单使用

1.先搭建Hadoop HA集群（包含ZooKeeper搭建），请看这：Hadoop HA高可用集群搭建（2.7.2）2.我只有五台机器，所以是这么规划的：drguo1/2 HMaster drguo3/4/5 HRegionServer3.先在drguo1上安装配置好之后，再拷给2/3/4/5。4.正式开始4.1去官网下载HBase，最低要0.96版本，之前版本不支持Ha

2016-03-27 17:28:28 6272 5

原创 Hive UDF自定义函数编写小例子

感谢段海涛老师~先写一个java类，定义函数逻辑（静态代码块模拟字典）package club.drguo.hive;import java.util.HashMap;import org.apache.hadoop.hive.ql.exec.UDF;//club.drguo.hive.PhoneNumToAreapublic class PhoneNumToArea exte

2016-03-26 22:03:25 3002

原创 Hadoop HA高可用集群搭建（2.7.2）

1.集群规划：2.前期准备：3.搭建zookeeper集群（drguo3/drguo4/drguo5）

2016-03-24 22:33:12 17603 5

原创 ZooKeeper完全分布式集群搭建

前面一样的我就不写了，请戳这里zookeeper伪分布配置

2016-03-24 21:23:30 6791 1

原创 OpenStack自动化部署----单节点的自动安装（DevStack）+apt-get更换源

1.apt-get更换源guo@drguo1:~$ sudo gedit /etc/apt/sources.list换成网易源deb http://mirrors.163.com/ubuntu/ precise-updates main restricteddeb-src http://mirrors.163.com/ubuntu/ precise-updates main res

2016-03-22 21:17:24 2551 1

原创 HDFS小文件过多的危害和解决方案

小文件过多的危害你知道吗~

2024-06-14 09:31:24 686

原创在Hive中使用Python编写的UDF函数

在Hive中使用Python编写的UDF函数，需要通过Hive的brickhouse库来实现。brickhouse库提供了一种将Python UDF函数与Hive集成的方法。

2024-03-18 14:14:07 896

原创 Presto SQL 常见报错汇总

Presto SQL 常见问题汇总，持续更新中...

2023-03-02 13:43:50 2779 4

jce8&mysql.zip

含jce_policy-8.zip，mysql57-community-release-el7-8.noarch.rpm，mysql-connector-java-5.1.39.jar

2021-05-20

py4j-0.10.9.1-py2.py3-none-any.whl

py4j，python2和3都可使用，安装py4j：pip install py4j-0.10.9.1-py2.py3-none-any.whl

2021-02-09

pyspark相关包.zip

在Windows下安装使用pyspark所依赖的软件，含python-3.7.2-amd64.exe，scala-2.11.8.msi，spark-2.4.0-bin-hadoop2.7.tgz，winutils-master.zip，其中winutils-master.zip中有hadoop-2.6.0到hadoop-3.0.0各版本，使用说明详见：drguo.blog.csdn.net/article/details/113769453

2021-02-09

eagle-0.5.0-bin.tar.gz

编译好的apache eagle 0.5.0，可直接解压执行，使用说明详见：https://drguo.blog.csdn.net/article/details/109995776

2020-11-25

eagle-0.5.1-SNAPSHOT-bin.tar.gz

编译好的apache eagle 0.5.1，可直接解压执行，使用说明详见：https://drguo.blog.csdn.net/article/details/109995776

2020-11-25

libfb303-0.9.3.jar

Thrift is a software framework for scalable cross-language services development.hive 1.x以上用这个代替libfb303.jar

2019-11-13

libfb303.jar

解决使用flume sink到hive时缺少jar包的错误，Caused by: java.lang.ClassNotFoundException: com.facebook.fb303.FacebookServiceIface

2019-11-05

Flume采集MySQL数据所需jar包.zip

Flume采集MySQL数据所需jar包，含flume-ng-sql-source-1.5.2.jar，mysql-connector-java.jar

2019-10-21

libclntsh.so.11.1

你是否还在为报错sqlplus: error while loading shared libraries: libclntsh.so.11.1: cannot open shared object file: No such file or directory而犯愁，不用犯愁了，赶紧下载吧！

2019-08-01

linux.x64_11gR2_database Centos6.5 Oracle11g

Centos6.5 离线安装 Oracle11g 所需安装包，共两个，全部解压即可使用。

2019-08-01

Centos6.5-Oracle11g离线安装所需依赖rpm包.zip

CentOS6.5 linux.x64_11gR2_database Oracle11g 离线安装所需的所有依赖包，亲测可用。

2019-08-01

cats_and_dogs_filtered.zip

摘自Kaggle上的“狗vs猫”数据集25000张图片中的3000张图片，包含训练集2000张（猫狗各一千）、验证集1000张（猫狗各五百）

2019-05-28

fashion-mnist.zip

fashion mnist数据集，有T恤、短靴等10个类别图像，每张图片为28*28像素的灰阶图像，共70000张图像。使用见：https://drguo.blog.csdn.net/article/details/89337427

2019-05-28

jdata_product.csv

2019京东JDATA算法大赛（用户对品类下店铺的购买预测）商品表，比赛总结：https://drguo.blog.csdn.net/article/details/90514911。其余数据下载：https://pan.baidu.com/s/1mQf-haFZP38er7FMDxpQWg 提取码：mxlo

2019-05-27

ambari离线安装solr所需文件

解压后可以获得solr.tgz和SOLR-github文件夹，具体使用方法请看我置顶博客 blog.csdn.net/dr_guo

2018-09-05

mysql离线安装rpm包

MySQL及依赖 rpm包，含MySQL-client-5.6.31-1.el6.x86_64.rpm、MySQL-devel-5.6.31-1.el6.x86_64.rpm、MySQL-server-5.6.31-1.el6.x86_64.rpm、net-tools-2.0-0.22.20131004git.el7.x86_64.rpm、mysql-connector-java-5.1.39.jar、mysql-connector-odbc-5.3.6-linux-el6-x86-64bit.tar.gz

2018-07-05

ntp离线安装rpm包

NTP及依赖rpm包，含autogen-libopts-5.18-5.el7.x86_64.rpm、ntp-4.2.6p5-18.el7.centos.x86_64.rpm、ntpdate-4.2.6p5-18.el7.centos.x86_64.rpm

2018-07-05

iris(鸢尾花卉)数据集-二分类

该数据集只保留了原来iris(鸢尾花卉)数据集3个类virginica，versicolor和setosa中的versicolor和setosa，并将versicolor用0.0表示，setosa用1.0表示。每类50个样本；每个样本是一个4维的特征向量,萼片长，萼片宽，花瓣长，花瓣宽；

2017-08-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人