大数据
文章平均质量分 80
Jackie_ZHF
日日新 苟日新 又日新
展开
-
GBDT+LR算法
LR算法一、回归分析回归分析就是利用已知数据样本产生拟合方程,从而对未知数据进行预测。回归分析算法分类回归分析算法分为线性回归算法和非线性回归算法。2.1、线性回归一元线性回归和多元线性回归。2.2、非线性回归一元回归和多元回归。2.3、广义线性回归logistic回归三Logistic Regression算法逻辑回归与线性回归本质上是一样的,都是通过误差函数求解最优系数,在形式上只不过在线性回归上增加了一个逻辑函数。与线性回...原创 2020-06-11 14:58:40 · 1193 阅读 · 0 评论 -
Cloudera Manager离线部署CDH文档 详解
Cloudera Manager离线部署CDH文档目录:Cloudera Manager离线部署CDH文档 1目录: 1一、说明 2二、系统环境搭建 31、网络配置(所有节点) 32、SSH免密码登录 33、关闭防火墙 34、关闭SELINUX 45、安装JDK 46、设置NTP 57、安装配置MySql 68、下载依赖包 7三、Clo...原创 2019-06-03 11:57:06 · 1841 阅读 · 0 评论 -
hive 处理 json数据
两种方式1、将json以字符串的方式整个入Hive表,然后通过使用UDF函数解析已经导入到hive中的数据,比如使用LATERAL VIEW json_tuple的方法,获取所需要的列名。2、在导入之前将json拆成各个字段,导入Hive表的数据是已经解析过得。这将需要使用第三方的SerDe。测试数据测试数据为新浪微博的评论数据,格式如下:{ "appCode": "weibo...转载 2019-06-13 18:34:57 · 430 阅读 · 0 评论 -
那些惊艳的算法们(一)—— 布隆过滤器
那些惊艳的算法们(一)——布隆过滤器欢迎转载 https://blog.csdn.net/xinzhongtianxia/article/details/81294922问题假设你现在要处理这样一个问题,你有一个网站并且拥有很多访客,每当有用户访问时,你想知道这个ip是不是第一次访问你的网站。这是一个很常见的场景,为了完成这个功能,你很容易就会想到下面这个解决方案:把访客的ip存进一...转载 2019-04-09 20:51:43 · 461 阅读 · 0 评论 -
Hive性能优化(全面)
Hive性能优化(全面)1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。Jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。Sum,count,max,min等UDAF,不怕数据倾斜问题,hado...原创 2019-04-04 22:41:37 · 359 阅读 · 4 评论 -
Python3 Flask框架
Flask框架内容原创,侵权必究。学习分享请注明地址:https://blog.csdn.net/Jackie_ZHF/article/details/82592928博主有时间会不定期更新大数据hadoop spark storm人工智能方面的博客目录一、What`s Flask 2-...原创 2018-09-10 17:26:43 · 8680 阅读 · 0 评论 -
Hadoop2.x搭建部署
Hadoop2.X HA搭建四台机器:hadoop1,hadoop2,hadoop3,hadoop4 NN DN ZK ZKFC JN RM NM(任务管理) Hadoop1 Y Y Y Hadoop2 Y Y Y Y Y Y Y Hadoop3 Y Y Y Y Hadoop4 Y Y ...原创 2018-07-10 19:27:29 · 328 阅读 · 0 评论 -
HBASE 的二级索引之— —Global Indexing
二级索引之— —Global Indexing转载自朋友的博客 技术分享,https://my.oschina.net/u/3511143/blog/1808831 侵权必究,转载请说明1.1 说明在HBase中,只有一个单一的按照字典序排序的rowKey索引,当使用rowKey来进行数据查询的时候速度较快,但是如果不使用rowKey来查询的话就会使用filter来对全表进行扫描,很大程度上...转载 2018-07-10 19:15:43 · 464 阅读 · 0 评论 -
Python Hadoop的Wordcount入门示例
Hadoop 框架是使用Java编写的但是我们仍然需要使用像C++、Python等语言来实现 Hadoop程序。尽管Hadoop官方网站给的示例程序是使用Jython编写并打包成Jar文件,这样显然造成了不便,其实,不一定非要这样来实现,我们可以使用Python与Hadoop 关联进行编程,看看位于/src/examples/python/WordCount.py 的例子。我们将...原创 2018-05-29 10:16:33 · 2384 阅读 · 0 评论 -
Hadoop之block副本放置策略 Rack机架感知源码
注意:block副本放置策略相关描述在Hadoop官网和源码实现与描述不一致。官网是第一个和第二个副本在同一机架上,第三个在不同机架上 更多随意。但是具体实现如下:•Block的副本放置策略 –第一个副本:放置在上传文件的DN;如果是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点。 –第二个副本:放置在于第一个副本不同的机架的节点上。 –第三个副本:与第二个副本相同机架...原创 2018-03-05 17:41:23 · 1941 阅读 · 0 评论 -
Linux磁盘挂载--解决Linux扩容和磁盘IO负载问题
Linux磁盘挂载解决扩容问题 增量数据的情况下,使得硬盘容量满载 解决磁盘IO的负载问题 现有的硬盘IO负载满载下,为了增加多个磁盘来分摊压力,如写入一个磁盘的目录下根据业务划分,写入挂载到不同磁盘的多个路径下,来达到磁盘IO的优化 一、 新增磁盘1、 在所要添加磁盘的虚拟机上右键点击设置。2、点击添加按钮。 3、选择硬盘,点击下一步 4、点击下一步。 5、根据自...原创 2018-03-05 08:59:28 · 1469 阅读 · 0 评论 -
HDFS完全分布式搭建
HDFS完全分布式搭建[Hadoop1.X]一、环境准备【如果没有准备好 请查阅然后准备以下环境】1、 JDK (前面已经安装好了)2、 Linux(前面已经安装好了)3、 准备至少3台机器,我们用的是4台(通过克隆虚拟机;配置好网络JDK 时间 hosts,保证节点间能互ping通)4、 时间同步 (ntpdate time.nist.gov)5、 ssh免秘钥登录 (两两互通免秘钥)二、...原创 2018-02-25 15:38:24 · 339 阅读 · 0 评论 -
HDFS配置参数及优化之实战经验(Linux hdfs)
HDFS优化之实战经验 Linux系统优化一、禁止文件系统记录时间 Linux文件系统会记录文件创建、修改和访问操作的时间信息,这在读写操作频繁的应用中将带来不小的性能损失。在挂载文件系统时设置noatime和nodiratime可禁止文件系统记录文件和目录的访问时间,这对HDFS这种读取操作频繁的系统来说,可以节约一笔可观的开销。可以修改/etc/fstab文件中...原创 2018-02-25 15:18:08 · 2394 阅读 · 0 评论 -
Linux下显示类似-bash-4.1# 不显示路径的解决办法
Linux下显示类似-bash-4.1# 不显示路径的解决办法解决办法: > 打开环境变量 : vim ~/.bash_profile > 修改环境变量 添加以下参数: export PS1='[\u@\h \W]\$' > source一下 使其生效 source ~/.bash_...原创 2018-02-25 15:00:16 · 820 阅读 · 0 评论 -
解决安装MySQL时登录错误--error: 'Access denied for user 'root'@'localhost' (using password: YES)'
在使用Linux安装MySQL登录时报 : mysqladmin: connect to server at 'localhost' failed error: 'Access denied for user 'root'@'localhost' (using password: YES)' 错误。解决办法:破解MySQL密码 1、停止mysql服务:service mysqld...原创 2018-02-25 14:53:17 · 671 阅读 · 2 评论 -
MapReduce的源码分析之Cli客户端源码讲解
MapReduce的源码分析之Cli 客户端源码分析: 客户端cli干了什么事情? 加载配置文件> 执行自定义参数的job任务(框架有很多默认参数)> submit提交任务>计算文件的split切片个数 [maps的个数、输入类型、输入大小] > 清单信息[block位置信息、block的index、split的大小] &...原创 2018-03-09 10:11:47 · 477 阅读 · 0 评论 -
MapReduce的调优总结
MapReduce的调优总结 Mapreduce服务器调优 1. mapreduce.task.io.sort.factor: mr程序进行合并排序的时候,打开的文件数量,默认为10个. 2. mapreduce.task.io.sort.mb: mr程序进行合并排序操作的时候或者mapper写数据的时候,内存大小,默认100M. 3. mapreduce.map.sort.spill.p...原创 2018-02-26 19:08:06 · 778 阅读 · 2 评论 -
搭建本地yum源
搭建yum本地源 1、虚拟机挂载光盘ios 完整版 2、linux主机中mount命令执行挂载[root@node2 ~]# mount /dev/cdrom /mnt/mount: block device /dev/sr0 is write-protected, mounting read-only[root@node2 ~]# ls /mnt/CentOS_BuildTag GPL...原创 2018-02-26 19:03:38 · 265 阅读 · 0 评论