- 博客(4)
- 资源 (4)
- 收藏
- 关注
原创 maven本地jar包导入
今天用到第三方一个库,在spark中将数据导入到hbase,使用了shc-core,但将maven配置上去无法下载,那只能另找方法了。先从https://mvnrepository.com/artifact/com.hortonworks/shc-core/1.1.1-2.1-s_2.11好面将jar包下载下来,开始想在maven的仓库中手动配置目录结构的,在google上查了下结果发现有更加简单...
2018-08-13 14:52:59 632
原创 PCA降维
关于PCA算法在机器学习中是经常会用到,特别在维度数比较大的情况下,为了提取主要的维度成分,使用PCA对维度进行降维操作,一方面在保证数据高精确性情况下,另一方面减少维度数量,降低由于维度带来的运算资源的消耗及运算的时间消耗 。PCA能够有效解决因维度带来的灾难。关于PCA的原理在很多书本、博客等地方都有所介绍,关于原理在这里不再详述。在这里我主要介绍PCA在matlab及python的实现。...
2018-08-09 14:56:35 405
原创 spark环境构建
spark是个分布式运算平台,在火热的大数据时代,很多企业很多场景都使用spark作为运算平台。一方面是其在计算的高效性,另一方面是其稳定性。官网有个很形象的说明,spark的运算效率是hadoop运算效率的100倍以上。广泛被运用在各种场景中,原因spark支持很多语言的接口:java、scala、python、R等,降低了开发人员的使用门槛。下面介绍spark的构建过程:1、环境准备,...
2018-08-08 22:22:28 151
原创 logstash的logstash-output-jdbc插件安装
突然来的一个需求,将日志文件中json串的内容写入到数据库中,作为一个偷懒coder,第一个时间想到就是偷懒的做法:将logstash扫描的结果直接输入到mysql库表中。关于logstash的安装就不再详述,后面如果写安装的介绍时再回头补充链接,我安装的logstash版本是5.6.6。从google上查了下logstash关于mysql的output插件:https://github....
2018-08-02 17:52:54 9903 10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人