自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

光于前裕于后的博客

改掉白嫖陋习,注重分享质量

  • 博客(8)
  • 资源 (18)
  • 收藏
  • 关注

原创 用R进行多元线性回归分析建模

概念:多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。

2016-05-31 22:20:37 52377 2

原创 Spark SQL简单操作演示(含导出表)

Spark SQL前身是Shark,由于Shark对于Hive的太多依赖制约了Spark的发展,Spark SQL由此产生。Spark SQL只要在编译的时候引入Hive支持,就可以支持Hive表访问,UDF,SerDe,以及HiveQL/HQL

2016-05-15 22:10:43 20428 3

原创 Spark SQL与Hive On MapReduce速度比较

我们都知道Spark比Hadoop的MR计算速度更快。到底快多少呢?我一直比较疑惑,会有官网说的那么夸张吗。今天就拿基于Spark的Spark SQL和基于MR的Hive比较一下,因为Spark SQL也兼容了HiveQL,我们就可以通过运行相同的HiveQL语句,比较直观的看出到底快多少了。Spark SQL只要在编译的时候引入Hive支持,就可以支持Hive表访问,UDF,Ser...

2016-05-15 16:23:24 7699

原创 SparkR初体验

突然有个想法,R只能处理百万级别的数据,如果R能运行在spark上多好!搜了下发现13年SparkR这个项目就启动了,感谢美帝!1.你肯定得先装个spark吧。看这:Spark本地模式与Spark Standalone伪分布模式2.你肯定得会R吧。看这:R语言入门3.启动SparkR就可以了guo@drguo:/opt/spark-1.6.1-bin-hadoop2.6$ ./bin/sparkR #这样直接运行应该是默认在本地运行,要在集群上运行应该和spark-shell一样,后面加点参数 --

2016-05-11 20:41:19 20866 7

原创 用R进行一元线性回归分析建模

概念:一元线性回归预测是指成对的两个变量数据的散点图呈现出直线趋势时,采用最小二乘法,找到两者之间的经验公式,即一元线性回归预测模型。根据自变量的变化,来估计因变量变化的预测方法。我用的是R内置数据集mtcars,要预测的是当每加仑汽油能跑23英里(mpg=23)的车有多重(wt?)。下面贴一下代码,代码较简单,但重要的是这个流程!1.attach(mtcars);pl

2016-05-31 15:59:34 11930

原创 Spark SQL/Hive 同一列的多行记录合并为一行

可以写UDAF,但导jar包啥的挺麻烦的,我找了个简单方法,两个函数搞定。需求是这样的,统计出同一用户在同一地点会去哪些商店,商店以':'隔开。(第一列用户id,第二列商店id,第三列地区id,第四列日期)spark-sql> select * from test;1027765 4822 172 201510281027765 4822 172 20151026881482

2016-05-26 16:07:21 16392 3

原创 Error in library.dynam(lib, package, package.lib) : shared object ‘plyr.so’ not found

在ubuntu 下载R的reshape包的时候报了以下的错:Error in library.dynam(lib, package, package.lib) :  shared object ‘plyr.so’ not foundERROR: lazy loading failed for package ‘reshape’* removing ‘/opt/spark-1.6

2016-05-13 19:19:17 6820

原创 验证码识别(Tess4J初体验)

遇到一道机试题当时就懵逼了0.0查了好多资料,大体知道了基本的步骤:1.预处理 2.灰度化 3.二值化 4.去噪 5.分割 6.识别还好题目要求不严格,可以使用开源程序。机智的我还真找到一个:Tesseract下面开始正文:Tess4J官方描述:A Java JNA wrapper for Tesseract OCR API.1.先去官网下载:http://

2016-05-07 22:21:20 39562 20

jce8&mysql.zip

含jce_policy-8.zip,mysql57-community-release-el7-8.noarch.rpm,mysql-connector-java-5.1.39.jar

2021-05-20

py4j-0.10.9.1-py2.py3-none-any.whl

py4j,python2和3都可使用,安装py4j:pip install py4j-0.10.9.1-py2.py3-none-any.whl

2021-02-09

pyspark相关包.zip

在Windows下安装使用pyspark所依赖的软件,含python-3.7.2-amd64.exe,scala-2.11.8.msi,spark-2.4.0-bin-hadoop2.7.tgz,winutils-master.zip,其中winutils-master.zip中有hadoop-2.6.0到hadoop-3.0.0各版本,使用说明详见:drguo.blog.csdn.net/article/details/113769453

2021-02-09

eagle-0.5.0-bin.tar.gz

编译好的apache eagle 0.5.0,可直接解压执行,使用说明详见:https://drguo.blog.csdn.net/article/details/109995776

2020-11-25

eagle-0.5.1-SNAPSHOT-bin.tar.gz

编译好的apache eagle 0.5.1,可直接解压执行,使用说明详见:https://drguo.blog.csdn.net/article/details/109995776

2020-11-25

libfb303-0.9.3.jar

Thrift is a software framework for scalable cross-language services development.hive 1.x以上用这个代替libfb303.jar

2019-11-13

libfb303.jar

解决使用flume sink到hive时缺少jar包的错误,Caused by: java.lang.ClassNotFoundException: com.facebook.fb303.FacebookServiceIface

2019-11-05

Flume采集MySQL数据所需jar包.zip

Flume采集MySQL数据所需jar包,含flume-ng-sql-source-1.5.2.jar,mysql-connector-java.jar

2019-10-21

libclntsh.so.11.1

你是否还在为报错sqlplus: error while loading shared libraries: libclntsh.so.11.1: cannot open shared object file: No such file or directory而犯愁,不用犯愁了,赶紧下载吧!

2019-08-01

linux.x64_11gR2_database Centos6.5 Oracle11g

Centos6.5 离线安装 Oracle11g 所需安装包,共两个,全部解压即可使用。

2019-08-01

Centos6.5-Oracle11g离线安装所需依赖rpm包.zip

CentOS6.5 linux.x64_11gR2_database Oracle11g 离线安装所需的所有依赖包,亲测可用。

2019-08-01

cats_and_dogs_filtered.zip

摘自Kaggle上的“狗vs猫”数据集25000张图片中的3000张图片,包含训练集2000张(猫狗各一千)、验证集1000张(猫狗各五百)

2019-05-28

fashion-mnist.zip

fashion mnist数据集,有T恤、短靴等10个类别图像,每张图片为28*28像素的灰阶图像,共70000张图像。 使用见:https://drguo.blog.csdn.net/article/details/89337427

2019-05-28

jdata_product.csv

2019京东JDATA算法大赛(用户对品类下店铺的购买预测)商品表,比赛总结:https://drguo.blog.csdn.net/article/details/90514911。 其余数据下载:https://pan.baidu.com/s/1mQf-haFZP38er7FMDxpQWg 提取码:mxlo

2019-05-27

ambari离线安装solr所需文件

解压后可以获得solr.tgz和SOLR-github文件夹,具体使用方法请看我置顶博客 blog.csdn.net/dr_guo

2018-09-05

mysql离线安装rpm包

MySQL及依赖 rpm包,含MySQL-client-5.6.31-1.el6.x86_64.rpm、MySQL-devel-5.6.31-1.el6.x86_64.rpm、MySQL-server-5.6.31-1.el6.x86_64.rpm、net-tools-2.0-0.22.20131004git.el7.x86_64.rpm、mysql-connector-java-5.1.39.jar、mysql-connector-odbc-5.3.6-linux-el6-x86-64bit.tar.gz

2018-07-05

ntp离线安装rpm包

NTP及依赖rpm包,含autogen-libopts-5.18-5.el7.x86_64.rpm、ntp-4.2.6p5-18.el7.centos.x86_64.rpm、ntpdate-4.2.6p5-18.el7.centos.x86_64.rpm

2018-07-05

iris(鸢尾花卉)数据集-二分类

该数据集只保留了原来iris(鸢尾花卉)数据集3个类virginica,versicolor和setosa中的versicolor和setosa,并将versicolor用0.0表示,setosa用1.0表示。每类50个样本;每个样本是一个4维的特征向量,萼片长,萼片宽,花瓣长,花瓣宽;

2017-08-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除