- 博客(8)
- 资源 (18)
- 收藏
- 关注
原创 用R进行多元线性回归分析建模
概念:多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。
2016-05-31 22:20:37 52377 2
原创 Spark SQL简单操作演示(含导出表)
Spark SQL前身是Shark,由于Shark对于Hive的太多依赖制约了Spark的发展,Spark SQL由此产生。Spark SQL只要在编译的时候引入Hive支持,就可以支持Hive表访问,UDF,SerDe,以及HiveQL/HQL
2016-05-15 22:10:43 20428 3
原创 Spark SQL与Hive On MapReduce速度比较
我们都知道Spark比Hadoop的MR计算速度更快。到底快多少呢?我一直比较疑惑,会有官网说的那么夸张吗。今天就拿基于Spark的Spark SQL和基于MR的Hive比较一下,因为Spark SQL也兼容了HiveQL,我们就可以通过运行相同的HiveQL语句,比较直观的看出到底快多少了。Spark SQL只要在编译的时候引入Hive支持,就可以支持Hive表访问,UDF,Ser...
2016-05-15 16:23:24 7699
原创 SparkR初体验
突然有个想法,R只能处理百万级别的数据,如果R能运行在spark上多好!搜了下发现13年SparkR这个项目就启动了,感谢美帝!1.你肯定得先装个spark吧。看这:Spark本地模式与Spark Standalone伪分布模式2.你肯定得会R吧。看这:R语言入门3.启动SparkR就可以了guo@drguo:/opt/spark-1.6.1-bin-hadoop2.6$ ./bin/sparkR #这样直接运行应该是默认在本地运行,要在集群上运行应该和spark-shell一样,后面加点参数 --
2016-05-11 20:41:19 20866 7
原创 用R进行一元线性回归分析建模
概念:一元线性回归预测是指成对的两个变量数据的散点图呈现出直线趋势时,采用最小二乘法,找到两者之间的经验公式,即一元线性回归预测模型。根据自变量的变化,来估计因变量变化的预测方法。我用的是R内置数据集mtcars,要预测的是当每加仑汽油能跑23英里(mpg=23)的车有多重(wt?)。下面贴一下代码,代码较简单,但重要的是这个流程!1.attach(mtcars);pl
2016-05-31 15:59:34 11930
原创 Spark SQL/Hive 同一列的多行记录合并为一行
可以写UDAF,但导jar包啥的挺麻烦的,我找了个简单方法,两个函数搞定。需求是这样的,统计出同一用户在同一地点会去哪些商店,商店以':'隔开。(第一列用户id,第二列商店id,第三列地区id,第四列日期)spark-sql> select * from test;1027765 4822 172 201510281027765 4822 172 20151026881482
2016-05-26 16:07:21 16392 3
原创 Error in library.dynam(lib, package, package.lib) : shared object ‘plyr.so’ not found
在ubuntu 下载R的reshape包的时候报了以下的错:Error in library.dynam(lib, package, package.lib) : shared object ‘plyr.so’ not foundERROR: lazy loading failed for package ‘reshape’* removing ‘/opt/spark-1.6
2016-05-13 19:19:17 6820
原创 验证码识别(Tess4J初体验)
遇到一道机试题当时就懵逼了0.0查了好多资料,大体知道了基本的步骤:1.预处理 2.灰度化 3.二值化 4.去噪 5.分割 6.识别还好题目要求不严格,可以使用开源程序。机智的我还真找到一个:Tesseract下面开始正文:Tess4J官方描述:A Java JNA wrapper for Tesseract OCR API.1.先去官网下载:http://
2016-05-07 22:21:20 39562 20
jce8&mysql.zip
2021-05-20
py4j-0.10.9.1-py2.py3-none-any.whl
2021-02-09
pyspark相关包.zip
2021-02-09
eagle-0.5.0-bin.tar.gz
2020-11-25
eagle-0.5.1-SNAPSHOT-bin.tar.gz
2020-11-25
libfb303-0.9.3.jar
2019-11-13
libfb303.jar
2019-11-05
Flume采集MySQL数据所需jar包.zip
2019-10-21
libclntsh.so.11.1
2019-08-01
linux.x64_11gR2_database Centos6.5 Oracle11g
2019-08-01
Centos6.5-Oracle11g离线安装所需依赖rpm包.zip
2019-08-01
cats_and_dogs_filtered.zip
2019-05-28
fashion-mnist.zip
2019-05-28
jdata_product.csv
2019-05-27
mysql离线安装rpm包
2018-07-05
ntp离线安装rpm包
2018-07-05
iris(鸢尾花卉)数据集-二分类
2017-08-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人