- 博客(3)
- 资源 (18)
- 收藏
- 关注
原创 Hadoop单机、伪分布式集群搭建(十分详细)
要搭建Hadoop HA集群请戳这今天终于把老师布置的项目做完了,闲来无事在机房的电脑上装了Ubuntu(用EasyBCD步骤非常简单,请自行百度),上学期在虚拟机上装了Hadoop,现在可以在实体机搭个伪分布式了。下面我就一边搭建一边写怎么搭建Hadoop伪分布模式。1.下载jdk并安装去官网下就可以了,下完之后把文件移到/opt/Java下guo@guo
2016-11-25 17:15:34 18928 5
原创 异常用户发现(Spark MLlib+Spark SQL+DataFrame)
整体思路:对原始数据提取特征后,使用KMeans做聚类,把元素明显少的类视为异常类,类中的用户视为异常用户,打上标签,之后用随机森林进行分类,训练出模型后对新数据进行分类,找出异常用户。
2016-11-25 16:47:31 3704
原创 Spark MLlib RandomForest(随机森林)建模与预测
我要做的是发现异常用户,而我们之前没有已经打上异常不异常标签的样本,所以对原始数据进行清洗、特征工程、降维后用Mahout/R做的聚类,打上了标签,本来打算继续用Mahout/R做分类,Mahout太慢,而用R实现KNN、RandomForest之后发现无法应用到真实项目上,所以用了MLlib。下面是用R获取正负样本#1.将kmeans标出的异常类标为1作为正样本,其它类标为0作为负样本#1.1
2016-11-21 12:03:57 8231 4
jce8&mysql.zip
2021-05-20
py4j-0.10.9.1-py2.py3-none-any.whl
2021-02-09
pyspark相关包.zip
2021-02-09
eagle-0.5.0-bin.tar.gz
2020-11-25
eagle-0.5.1-SNAPSHOT-bin.tar.gz
2020-11-25
libfb303-0.9.3.jar
2019-11-13
libfb303.jar
2019-11-05
Flume采集MySQL数据所需jar包.zip
2019-10-21
libclntsh.so.11.1
2019-08-01
linux.x64_11gR2_database Centos6.5 Oracle11g
2019-08-01
Centos6.5-Oracle11g离线安装所需依赖rpm包.zip
2019-08-01
cats_and_dogs_filtered.zip
2019-05-28
fashion-mnist.zip
2019-05-28
jdata_product.csv
2019-05-27
mysql离线安装rpm包
2018-07-05
ntp离线安装rpm包
2018-07-05
iris(鸢尾花卉)数据集-二分类
2017-08-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人