自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

光于前裕于后的博客

改掉白嫖陋习,注重分享质量

  • 博客(3)
  • 资源 (18)
  • 收藏
  • 关注

原创 Hadoop单机、伪分布式集群搭建(十分详细)

要搭建Hadoop HA集群请戳这今天终于把老师布置的项目做完了,闲来无事在机房的电脑上装了Ubuntu(用EasyBCD步骤非常简单,请自行百度),上学期在虚拟机上装了Hadoop,现在可以在实体机搭个伪分布式了。下面我就一边搭建一边写怎么搭建Hadoop伪分布模式。1.下载jdk并安装去官网下就可以了,下完之后把文件移到/opt/Java下guo@guo

2016-11-25 17:15:34 18928 5

原创 异常用户发现(Spark MLlib+Spark SQL+DataFrame)

整体思路:对原始数据提取特征后,使用KMeans做聚类,把元素明显少的类视为异常类,类中的用户视为异常用户,打上标签,之后用随机森林进行分类,训练出模型后对新数据进行分类,找出异常用户。

2016-11-25 16:47:31 3704

原创 Spark MLlib RandomForest(随机森林)建模与预测

我要做的是发现异常用户,而我们之前没有已经打上异常不异常标签的样本,所以对原始数据进行清洗、特征工程、降维后用Mahout/R做的聚类,打上了标签,本来打算继续用Mahout/R做分类,Mahout太慢,而用R实现KNN、RandomForest之后发现无法应用到真实项目上,所以用了MLlib。下面是用R获取正负样本#1.将kmeans标出的异常类标为1作为正样本,其它类标为0作为负样本#1.1

2016-11-21 12:03:57 8231 4

jce8&mysql.zip

含jce_policy-8.zip,mysql57-community-release-el7-8.noarch.rpm,mysql-connector-java-5.1.39.jar

2021-05-20

py4j-0.10.9.1-py2.py3-none-any.whl

py4j,python2和3都可使用,安装py4j:pip install py4j-0.10.9.1-py2.py3-none-any.whl

2021-02-09

pyspark相关包.zip

在Windows下安装使用pyspark所依赖的软件,含python-3.7.2-amd64.exe,scala-2.11.8.msi,spark-2.4.0-bin-hadoop2.7.tgz,winutils-master.zip,其中winutils-master.zip中有hadoop-2.6.0到hadoop-3.0.0各版本,使用说明详见:drguo.blog.csdn.net/article/details/113769453

2021-02-09

eagle-0.5.0-bin.tar.gz

编译好的apache eagle 0.5.0,可直接解压执行,使用说明详见:https://drguo.blog.csdn.net/article/details/109995776

2020-11-25

eagle-0.5.1-SNAPSHOT-bin.tar.gz

编译好的apache eagle 0.5.1,可直接解压执行,使用说明详见:https://drguo.blog.csdn.net/article/details/109995776

2020-11-25

libfb303-0.9.3.jar

Thrift is a software framework for scalable cross-language services development.hive 1.x以上用这个代替libfb303.jar

2019-11-13

libfb303.jar

解决使用flume sink到hive时缺少jar包的错误,Caused by: java.lang.ClassNotFoundException: com.facebook.fb303.FacebookServiceIface

2019-11-05

Flume采集MySQL数据所需jar包.zip

Flume采集MySQL数据所需jar包,含flume-ng-sql-source-1.5.2.jar,mysql-connector-java.jar

2019-10-21

libclntsh.so.11.1

你是否还在为报错sqlplus: error while loading shared libraries: libclntsh.so.11.1: cannot open shared object file: No such file or directory而犯愁,不用犯愁了,赶紧下载吧!

2019-08-01

linux.x64_11gR2_database Centos6.5 Oracle11g

Centos6.5 离线安装 Oracle11g 所需安装包,共两个,全部解压即可使用。

2019-08-01

Centos6.5-Oracle11g离线安装所需依赖rpm包.zip

CentOS6.5 linux.x64_11gR2_database Oracle11g 离线安装所需的所有依赖包,亲测可用。

2019-08-01

cats_and_dogs_filtered.zip

摘自Kaggle上的“狗vs猫”数据集25000张图片中的3000张图片,包含训练集2000张(猫狗各一千)、验证集1000张(猫狗各五百)

2019-05-28

fashion-mnist.zip

fashion mnist数据集,有T恤、短靴等10个类别图像,每张图片为28*28像素的灰阶图像,共70000张图像。 使用见:https://drguo.blog.csdn.net/article/details/89337427

2019-05-28

jdata_product.csv

2019京东JDATA算法大赛(用户对品类下店铺的购买预测)商品表,比赛总结:https://drguo.blog.csdn.net/article/details/90514911。 其余数据下载:https://pan.baidu.com/s/1mQf-haFZP38er7FMDxpQWg 提取码:mxlo

2019-05-27

ambari离线安装solr所需文件

解压后可以获得solr.tgz和SOLR-github文件夹,具体使用方法请看我置顶博客 blog.csdn.net/dr_guo

2018-09-05

mysql离线安装rpm包

MySQL及依赖 rpm包,含MySQL-client-5.6.31-1.el6.x86_64.rpm、MySQL-devel-5.6.31-1.el6.x86_64.rpm、MySQL-server-5.6.31-1.el6.x86_64.rpm、net-tools-2.0-0.22.20131004git.el7.x86_64.rpm、mysql-connector-java-5.1.39.jar、mysql-connector-odbc-5.3.6-linux-el6-x86-64bit.tar.gz

2018-07-05

ntp离线安装rpm包

NTP及依赖rpm包,含autogen-libopts-5.18-5.el7.x86_64.rpm、ntp-4.2.6p5-18.el7.centos.x86_64.rpm、ntpdate-4.2.6p5-18.el7.centos.x86_64.rpm

2018-07-05

iris(鸢尾花卉)数据集-二分类

该数据集只保留了原来iris(鸢尾花卉)数据集3个类virginica,versicolor和setosa中的versicolor和setosa,并将versicolor用0.0表示,setosa用1.0表示。每类50个样本;每个样本是一个4维的特征向量,萼片长,萼片宽,花瓣长,花瓣宽;

2017-08-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除