自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (7)
  • 问答 (1)
  • 收藏
  • 关注

原创 flink设置historyserver

可以参考下官网https://ci.apache.org/projects/flink/flink-docs-release-1.8/monitoring/historyserver.html1:配置conf/flink-conf.yaml文件,修改参数如下:flink job运行完成后的日志存放目录jobmanager.archive.fs.dir: hdfs://nameservi...

2019-12-06 14:04:31 1148

原创 在spark,MapReduce 或 Flink 程序里面制定环境变量

以jdk来举例,当我们需要 更高版本的jdk时,而默认的环境引用的是低版本的jdk,会引发如下错误: Exception in thread "main" java.lang.UnsupportedClassVersionError: com/iteblog/mobile/UserMobileInfo : Unsupported major.minor version 52.0 ...

2019-12-06 10:24:48 443

原创 hive使用tez环境配置

Tez引擎包下载:https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.8.4/apache-tez-0.8.4-bin.tar.gz1:将下载的安装包解压$ pwd/opt/ubd/core$tar -zxvf apache-tez-0.8.4-bin.tar.gz重命令tez 文件夹$mv apache-tez-0.8....

2019-12-05 16:47:24 872

原创 spark日常报错问题-持续性更新

1:spark运行过程中出现与driver链接异常,并存在磁盘读写一场:java.io.IOException: Failed to delete: /mnt/sd04/yarn/nm/usercache/hdfs/appcache/application_1570683010624_24827/blockmgr-24356fee-b578-49a1-8e97-9588d2d1180e...

2019-11-22 10:49:34 4700 1

原创 机器学习(十二):深度神经网络浅析

先阐述一些概念性的东西(也是对之前的东西的回顾,记性不好,老忘):回归问题与分类问题:回归:计算圆形面积的例子就属于回归问题,即我们的目的是对于一个输入x,预测其输出值y,且这个y值是根据x连续变化的值。分类:分类问题则是事先给定若干个类别,对于一个输入x,判断其属于哪个类别,即输出一般是离散的监督学习和无监督学习:监督学习:通过训练让机器自己找到特征和标签之间的联系(注:也就...

2019-04-23 17:42:57 559

原创 机器学习(十一):新闻摘要提取小案例

注:基于现有案例教程完成一个相对简单的 “关键字提取” 算法,来达到最自然语言处理的一个初步的理解。词汇数据下载:http://labfile.oss.aliyuncs.com/courses/741/nltk_data.tar.gz也可以用下面的下载import nltknltk.download('stopwords')nltk.download('punkt')...

2019-04-22 18:59:11 1121

原创 机器学习(十):自然语言处理初级理解

什么是自然语言处理:NLP(Natural Language Processing,自然语言处理)当中所谓的「自然」是为了与人造的语言(比如 C 语言, JAVA 等)区分开来,指自然形成的语言,即平时人们日常使用的交流的语言。「语言」则是人类区别其他动物的本质特性。在所有生物中,只有人类才具有语言能力。人类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式,人类的绝大部分知识也是以...

2019-04-22 16:40:28 455

原创 机器学习(九):鸢尾花-逻辑回归

注:基于现有案例教程鸢尾花数据来源于seaborn中自带的数据集,很多类似的都会自带这个数据集代码如下:import pymc3 as pmimport pandas as pdimport scipy.stats as statsimport theano.tensor as ttimport seaborn as snsimport matplotlib.pyplot ...

2019-04-22 15:55:09 1420

原创 机器学习(八):nba数据分析小案例

注:基于实验楼一个小项目数据下载地址:http://labfile.oss.aliyuncs.com/courses/782/data.zip代码如下:import pandas as pdimport mathimport csvimport randomimport numpy as npfrom sklearn import linear_modelfrom s...

2019-04-21 22:31:22 2263 1

原创 机器学习(七):k邻近算法初级浅析案例

注:基于现有小案例攥写K 近邻算法采用测量不同特征值之间的距离方法进行分类:优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。K 近邻算法适用数据范围为:数值型和标称型标称型:标称型目标变量的结果只在有限目标集中取值,如真与假数值型:数值型目标变量则可以从无限的数值集合中取值,如0.100,42.001等工作原理:存在一个样本数据集合,也...

2019-04-19 16:08:17 173

原创 机器学习(六):初级matplitlib绘图-之前的微补充

将一张图绘制在另一张图的内部:fig = plt.figure() # 新建画板axes1 = fig.add_axes([0.1, 0.1, 0.8, 0.8]) # 大画布axes2 = fig.add_axes([0.2, 0.5, 0.4, 0.3]) # 小画布# 大画布axes1.plot(x, y, 'r')# 小画布axes2.plot(y, x, 'g')...

2019-04-18 19:01:33 404

原创 机器学习(五):初级matplitlib绘图-其他绘图样式和3维绘图

注(百度百科案例)使用二维数据集和其他一些数据:散点图:import numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltnp.random.seed(2000)y = np.random.standard_normal((1000,2))plt.figure(figsize=(7,5))pl...

2019-04-18 18:43:02 449

原创 机器学习(四):初级matplitlib绘图-2维绘图

注:百度百科案例首先,我们必须导入对应的库。主要的绘图函数在子库matplotlib.pyplotimport numpy as npimport matplitlib as nmlimport matplotlib.pyplot as plt%matplotlib inline注:%matplotlib inline是再使用jupyter notebook或者jupyter...

2019-04-18 17:42:50 572

原创 机器学习(三):决策树,随机森林

树形模型是机器学习中最为常用的模型之一,其同KNN算法一样,也是弱假设型模型。而树形模型里面的决策树是bagging、随机森林以及boosting的基础,因此想要了解随机森林,首先要了解决策树:决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。常见的决策树算法有C4.5、ID3和CART。而一个树形模型经常包含以下定义:根节点...

2019-04-18 10:13:09 702

原创 机器学习(二):线性回归浅谈

定义:线性回归:用一条直线较为准备的描述数据 之间的关系(注:通过属性的线性组合来进行预测的线性模型,找到一条直线或者一个 平面,使得预测值与真实值之间的误差最小,常见于房价的预测)特点:计算熵不复杂,但是对非线性的拟合并不好注:(建模速度快,不需要很复杂的计算,在数据量大的情况下依然运行速度很快。可以根据系数给出每个变量的理解和解释。对异常值很敏感。)问题:假定现有一个房价数...

2019-04-17 10:59:19 256

原创 机器学习(一):监督学习与非监督学习

首先来一个大概的定义:监督学习:通过训练让机器自己找到特征和标签之间的联系(注:也就是学习的训练集包含输入和输出,得到了最优参数模型之后 ,新来的数据集在面对只有特征没有标签的情况下时,可以判断出标签)无监督学习:训练数据中只有特征没有标签,输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类。(注:不一定"分类",没有训练集,旨在寻找规律性,不予...

2019-04-13 11:21:39 666

原创 The maximum path component name limit

今日同事一个测试的任务经常异常退出查看相关job日志:org.apache.hadoop.yarn.exceptions.YarnRuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.FSLimitException$PathComponentTooLongExce...

2019-03-06 10:34:45 1768

原创 hive小文件造成map多

问题现象:hive查询时生成了大量的map,损耗了过多的cpu资源,参数调配没有生效问题分析:hive的map数 是由设定的inputsplit size来决定,hive封装了hadoop给出了inputformat的接口,用于描述输入数据的格式,并交由hive.input.format参数所决定,其中包含了两种主要使用类型:1:HiveInputFormat 2:CombineH...

2018-12-21 10:32:22 1350

原创 kafka参数整理

首先感谢很多先辈们的总结,让我省去了很多思考的功夫,更快的整理出这些从0.10.0 kafka官网中查询到的参数,但是感觉官网列出的这些参数不是很全,后续发现新参数会逐步添加到这个里面。如果有同事发现错误的地方或者有个人见解的地方也请留言,我会感谢并进行整合修改。Listeners默认值:null描述:例如PLAINTEXT://172.16.49.173:9093 advertised.host...

2018-03-14 18:03:21 1932

原创 关于xlearning的安装使用初步简介

最近发现了一个做事很认真的做算法同事,身上很多优点值得我学习,推荐使用了一种360的开源工具,可以将tensoeflow提交至yarn里面。这个工具感觉解决了很多问题。我这个人比较懒,大部分工作都是我那个同事研究成功的,然后我坐享其成,等着验证结果。特此在这里将他的成果记录下来:参考网址:https://github.com/Qihoo360/XLearning/blob/master/R

2017-12-22 14:44:56 5242 3

原创 关于pyspark 使用过程中需要python版本不同的需求

最近碰到了一个问题,挺有意思,是在使用spark过程中需要用到pyspark,而本地接口机的python版本太低,只有python 2.6版本,需求需要python 2.7版本甚至python 3版本。但是在使用过程中不允许修改主机自带的python。怎么办呢。只能手动下载指定。其中又分为 anaconda 版本的python,还有直接python官网下载python包安装。其中ana

2017-12-20 10:37:58 15921 2

kudu cm安装方式文档

关于cdh 出版的kudu安装步骤,包含了一些介绍,以及kudu安装截图

2019-01-28

kafka 配置kerberos安全认证

这个里面是kafka配置kerberos的详细步骤,其方式也可以应用到kafka自带的认证体系

2019-01-28

k8s安装步骤

此为详细的k8s的安装步骤,里面包含安装步骤,截图,基础环境配置等

2019-01-28

数据库连接

里面包含vc++中进行odbc连接和ado连接的方法,和实例

2014-06-10

精通ORACLE.10G备份与恢复

通过学习此书,可以更好的让你学会如何使用oracle进行备份,和恢复

2014-04-18

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除