- 博客(250)
- 资源 (18)
- 收藏
- 关注
原创 使用python获取pdf上的文字(in win10)
环境版本: WIN10 | Python 3.6 | ImageMagick-6.9.9-38-Q8-x64-dll | Ghostscript 9.22 for Windows 整体思路:1.将PDF转为图片后进行文字识别 | 2.使用pdfminer解析pdf文件(准确率更高)目录1.下载安装tesseract2.安装pyocr、Wand、Pillow3...
2018-03-17 22:09:25 7909 2
原创 Flume+Kakfa+Spark Streaming整合(运行WordCount小例子)
环境版本:Scala 2.10.5; Spark 1.6.0; Kafka 0.10.0.1; Flume 1.6.0
2017-11-21 21:08:00 926 5
原创 Spark MLlib - Iris(鸢尾花卉)数据集 LogisticRegression(逻辑回归)
所用数据:http://download.csdn.net/download/dr_guo/9946656环境版本:Spark 1.6.1; Scala 2.10.4; JDK 1.7
2017-08-23 15:30:45 5082
原创 Spark 分层抽样与求最大值最小值
详见注释package com.beagledata.sparkimport org.apache.spark.{SparkConf, SparkContext}/** * 分层抽样 * * Created by drguo on 2017/8/21. * blog.csdn.net/dr_guo */object PCSStratifiedSampling { val c
2017-08-21 16:05:38 3453
原创 Oracle表空间释放与增加表空间大小
1.drop表后并没有释放磁盘空间,这时可以通过缩小表空间释放磁盘存储注:一个表空间可以有多个datafile查看所有的datafile,找到你要缩小的datafileselect file#, name from v$datafile从上面获得要缩小的文件id是4,查看此文件有多少个blockselect max(block_id) from dba_extents where file_i
2017-04-20 10:35:28 9696 3
原创 Ranger用户同步于LDAP
LDAP[root@hdp certs]# ldapsearch -x -b "dc=wondersoft,dc=cn"。。。# trust admins, groups, accounts, wondersoft.cndn: cn=trust admins,cn=groups,cn=accounts,dc=wondersoft,dc=cncn: trust adminsobjectCla
2017-02-22 14:47:58 6020 5
原创 Ambari安装freeIPA
环境:Ambari-2.4.2、HDP-2.5.3、CentOS 6.5freeIPA包含了Kerberos、ldap等服务,经调研感觉可以用它来做认证和统一用户管理,用户都存在freeIPA的ldap中。
2017-02-22 11:38:30 5738 9
原创 Kerberos与Ranger、KMS整合
环境:Ambari-2.4.2、HDP-2.5.3、CentOS 6.51.之前用的是HDP2.4,装上Kerberos后Ranger的策略就失效了,KMS对秘钥也无法管理(WEB端),总感觉是因为哪里没配置好,但装装卸卸好多遍还是不行。http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.3/bk_command-line-upgrade/c
2017-02-07 11:56:15 7795 4
原创 Hadoop单机、伪分布式集群搭建(十分详细)
要搭建Hadoop HA集群请戳这今天终于把老师布置的项目做完了,闲来无事在机房的电脑上装了Ubuntu(用EasyBCD步骤非常简单,请自行百度),上学期在虚拟机上装了Hadoop,现在可以在实体机搭个伪分布式了。下面我就一边搭建一边写怎么搭建Hadoop伪分布模式。1.下载jdk并安装去官网下就可以了,下完之后把文件移到/opt/Java下guo@guo
2016-11-25 17:15:34 18928 5
原创 异常用户发现(Spark MLlib+Spark SQL+DataFrame)
整体思路:对原始数据提取特征后,使用KMeans做聚类,把元素明显少的类视为异常类,类中的用户视为异常用户,打上标签,之后用随机森林进行分类,训练出模型后对新数据进行分类,找出异常用户。
2016-11-25 16:47:31 3704
原创 Spark MLlib RandomForest(随机森林)建模与预测
我要做的是发现异常用户,而我们之前没有已经打上异常不异常标签的样本,所以对原始数据进行清洗、特征工程、降维后用Mahout/R做的聚类,打上了标签,本来打算继续用Mahout/R做分类,Mahout太慢,而用R实现KNN、RandomForest之后发现无法应用到真实项目上,所以用了MLlib。下面是用R获取正负样本#1.将kmeans标出的异常类标为1作为正样本,其它类标为0作为负样本#1.1
2016-11-21 12:03:57 8231 4
原创 用R语言对高维数据进行降维聚类展示
【为什么要降维】 *维数灾难:在给定精度下,准确地对某些变量的函数进行估计,所需样本量会随着样本维数的增加而呈指数形式增长。 *降维的意义:克服维数灾难,获取本质特征,节省存储空间,去除无用噪声,实现数据可视化 强烈推荐几篇博客: https://www.douban.com/note/469279998/ http://bindog.github.io/blog/2016/06/04/f
2016-10-26 12:22:29 12283 3
原创 Mahout K-Means输出结果解析
怎么使用Mahout做聚类有空我会专门写的,这篇博客主要为了讲一下Mahout处理的结果。 Mahout版本为0.9,数据没做归一化、标准化,只是为了测试。输出目录下有clusteredPoints、cluster-x、cluster-(x+1)-final等几个文件夹,x表示第x次迭代,每次的迭代结果都会存到cluster-x,最后一次(x+1)迭代结果存在cluster-(x+1)-final
2016-10-19 17:12:09 4270
原创 使用Flume向HDFS持久化数据(日志)
1.去官网下载Flume(使用Flume需安装jdk1.6以上版本) 2.解压后进入其根目录新建checkpoint和dataDi目录 3.进入conf目录,新建hdfs_sink.confagent.sources = r1agent.channels = c1agent.sinks = k1agent.sources.r1.type = execagent.sources.r1.com
2016-08-05 17:00:43 1655
原创 Hadoop与MongoDB整合(Hive篇)
1.背景公司希望使用MongoDB作为后端业务数据库,使用Hadoop平台作为数据平台。最开始是先把数据从MongoDB导出来,然后传到HDFS,然后用Hive/MR处理。我感觉这也太麻烦了,现在不可能没有人想到这个问题,于是就搜了一下,结果真找到一个MongoDB Connector for Hadoop2.MongoDB简介–摘自邹贵金的《mongodb》一书NoSQL数据库与传统的关系型数据库
2016-06-17 11:33:30 29497 11
原创 用R进行多元线性回归分析建模
概念:多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。
2016-05-31 22:20:37 52372 2
原创 Spark SQL简单操作演示(含导出表)
Spark SQL前身是Shark,由于Shark对于Hive的太多依赖制约了Spark的发展,Spark SQL由此产生。Spark SQL只要在编译的时候引入Hive支持,就可以支持Hive表访问,UDF,SerDe,以及HiveQL/HQL
2016-05-15 22:10:43 20428 3
原创 Spark SQL与Hive On MapReduce速度比较
我们都知道Spark比Hadoop的MR计算速度更快。到底快多少呢?我一直比较疑惑,会有官网说的那么夸张吗。今天就拿基于Spark的Spark SQL和基于MR的Hive比较一下,因为Spark SQL也兼容了HiveQL,我们就可以通过运行相同的HiveQL语句,比较直观的看出到底快多少了。Spark SQL只要在编译的时候引入Hive支持,就可以支持Hive表访问,UDF,Ser...
2016-05-15 16:23:24 7698
原创 SparkR初体验
突然有个想法,R只能处理百万级别的数据,如果R能运行在spark上多好!搜了下发现13年SparkR这个项目就启动了,感谢美帝!1.你肯定得先装个spark吧。看这:Spark本地模式与Spark Standalone伪分布模式2.你肯定得会R吧。看这:R语言入门3.启动SparkR就可以了guo@drguo:/opt/spark-1.6.1-bin-hadoop2.6$ ./bin/sparkR #这样直接运行应该是默认在本地运行,要在集群上运行应该和spark-shell一样,后面加点参数 --
2016-05-11 20:41:19 20865 7
原创 Spark Standalone完全分布模式
红字部分来源于:董的博客目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算
2016-04-24 20:41:31 1833
原创 Spark本地模式与Spark Standalone伪分布模式
spark的本地模式类似于hadoop的单机模式,是为了方便我们调试或入门的。1.先去官网下载下来http://spark.apache.org/downloads.html,不要下错了,下载pre-built(这是已经编译好了,产生了二进制文件的)for 你的hadoop版本。
2016-04-23 21:25:53 14181
原创 Hive差集运算详解
我们先来了解一下什么是差集差集定义:一般地,设A,B是两个集合,由所有属于A且不属于B的元素组成的集合,叫做集合A减集合B(或集合A与集合B之差),类似地,对于集合A.B,我们把集合{x/x∈A,且x¢B}叫做A与B的差集,记作A-B记作A-B(或A\B),即A-B={x|x∈A,且x ¢B}(或A\B={x|x∈A,且x ¢B} B-A={x/x∈B且x¢A} 叫做B与A的差集
2016-04-18 21:39:52 31055 4
原创 MapReduce Input Split(输入分/切片)详解
看了很多博客,感觉没有一个说的很清楚,所以我来整理一下。Hadoop 2.x默认的block大小是128MB,Hadoop 1.x默认的block大小是64MB,可以在hdfs-site.xml中设置dfs.block.size,注意单位是byte。分片大小范围可以在mapred-site.xml中设置,mapred.min.split.size mapred.max.split.size,minSplitSize大小默认为1B,maxSplitSize大小默认为Long.MAX_VALUE = 92
2016-04-14 13:56:44 36955 3
原创 天池新人实战赛——阿里移动推荐算法大赛(离线赛与平台赛)
竞赛题目 (离线赛与平台赛题目一样,只是数据量不一样,离线2000w+条数据,平台11亿+条数据)在真实的业务场景下,我们往往需要对所有商品的一个子集构建个性化推荐模型。在完成这件任务的过程中,我们不仅需要利用用户在这个商品子集上的行为数据,往往还需要利用更丰富的用户行为数据。定义如下的符号:U——用户集合I——商品全集P——商品子集,P⊆ID——用户对商品全集的行为数据集合...
2016-04-13 17:04:23 14815 10
原创 Kafka集群搭建及简单使用(控制台与Java客户端)
官方文档:http://kafka.apache.org/documentation.html#introductionKafka其实就是分布式的消息队列,如果不知道消息队列请看这:http://blog.csdn.net/dr_guo/article/details/507636791.下载去官网下载即可2.解压3.配置环境变量/etc/profile4.安装zo
2016-04-03 16:15:16 3406
原创 Storm集群搭建
1.下载去官网下载即可2.解压3.配置环境变量/etc/profile4.安装zookeeperZooKeeper完全分布式集群搭建5.修改配置文件conf/下的storm.yaml#所使用的zookeeper集群主机storm.zookeeper.servers: - "drguo3" - "drguo4" - "drguo5"
2016-04-01 23:00:00 623
原创 使用Sqoop将数据在HDFS与MySQL互导
1.去官网下载sqoop,直接百度即可2.解压后进入conf目录guo@drguo1:/opt/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/conf$ cp sqoop-env-template.sh sqoop-env.sh3.在sqoop-env.sh添加各种home#Set path to where bin/hadoop is avail
2016-03-29 15:21:24 4745
原创 HBase HA高可用集群搭建及HBase Shell简单使用
1.先搭建Hadoop HA集群(包含ZooKeeper搭建),请看这:Hadoop HA高可用集群搭建(2.7.2)2.我只有五台机器,所以是这么规划的:drguo1/2 HMaster drguo3/4/5 HRegionServer3.先在drguo1上安装配置好之后,再拷给2/3/4/5。4.正式开始4.1去官网下载HBase,最低要0.96版本,之前版本不支持Ha
2016-03-27 17:28:28 6272 5
原创 Hive UDF自定义函数编写小例子
感谢段海涛老师~先写一个java类,定义函数逻辑(静态代码块模拟字典)package club.drguo.hive;import java.util.HashMap;import org.apache.hadoop.hive.ql.exec.UDF;//club.drguo.hive.PhoneNumToAreapublic class PhoneNumToArea exte
2016-03-26 22:03:25 3002
原创 Hadoop HA高可用集群搭建(2.7.2)
1.集群规划:2.前期准备:3.搭建zookeeper集群(drguo3/drguo4/drguo5)
2016-03-24 22:33:12 17603 5
原创 OpenStack自动化部署----单节点的自动安装(DevStack)+apt-get更换源
1.apt-get更换源guo@drguo1:~$ sudo gedit /etc/apt/sources.list换成网易源deb http://mirrors.163.com/ubuntu/ precise-updates main restricteddeb-src http://mirrors.163.com/ubuntu/ precise-updates main res
2016-03-22 21:17:24 2551 1
原创 在Hive中使用Python编写的UDF函数
在Hive中使用Python编写的UDF函数,需要通过Hive的brickhouse库来实现。brickhouse库提供了一种将Python UDF函数与Hive集成的方法。
2024-03-18 14:14:07 896
jce8&mysql.zip
2021-05-20
py4j-0.10.9.1-py2.py3-none-any.whl
2021-02-09
pyspark相关包.zip
2021-02-09
eagle-0.5.0-bin.tar.gz
2020-11-25
eagle-0.5.1-SNAPSHOT-bin.tar.gz
2020-11-25
libfb303-0.9.3.jar
2019-11-13
libfb303.jar
2019-11-05
Flume采集MySQL数据所需jar包.zip
2019-10-21
libclntsh.so.11.1
2019-08-01
linux.x64_11gR2_database Centos6.5 Oracle11g
2019-08-01
Centos6.5-Oracle11g离线安装所需依赖rpm包.zip
2019-08-01
cats_and_dogs_filtered.zip
2019-05-28
fashion-mnist.zip
2019-05-28
jdata_product.csv
2019-05-27
mysql离线安装rpm包
2018-07-05
ntp离线安装rpm包
2018-07-05
iris(鸢尾花卉)数据集-二分类
2017-08-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人