梦里却知是客-CSDN博客

原创 flink设置historyserver

可以参考下官网https://ci.apache.org/projects/flink/flink-docs-release-1.8/monitoring/historyserver.html1：配置conf/flink-conf.yaml文件，修改参数如下：flink job运行完成后的日志存放目录jobmanager.archive.fs.dir: hdfs://nameservi...

2019-12-06 14:04:31 1238

原创在spark，MapReduce 或 Flink 程序里面制定环境变量

以jdk来举例，当我们需要更高版本的jdk时，而默认的环境引用的是低版本的jdk，会引发如下错误： Exception in thread "main" java.lang.UnsupportedClassVersionError: com/iteblog/mobile/UserMobileInfo : Unsupported major.minor version 52.0 ...

2019-12-06 10:24:48 496

原创 hive使用tez环境配置

Tez引擎包下载：https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.8.4/apache-tez-0.8.4-bin.tar.gz1：将下载的安装包解压$ pwd/opt/ubd/core$tar -zxvf apache-tez-0.8.4-bin.tar.gz重命令tez 文件夹$mv apache-tez-0.8....

2019-12-05 16:47:24 956

原创 spark日常报错问题-持续性更新

1：spark运行过程中出现与driver链接异常，并存在磁盘读写一场:java.io.IOException: Failed to delete: /mnt/sd04/yarn/nm/usercache/hdfs/appcache/application_1570683010624_24827/blockmgr-24356fee-b578-49a1-8e97-9588d2d1180e...

2019-11-22 10:49:34 5040 1

原创机器学习（十二）：深度神经网络浅析

先阐述一些概念性的东西（也是对之前的东西的回顾，记性不好，老忘）：回归问题与分类问题：回归：计算圆形面积的例子就属于回归问题，即我们的目的是对于一个输入x，预测其输出值y，且这个y值是根据x连续变化的值。分类：分类问题则是事先给定若干个类别，对于一个输入x，判断其属于哪个类别，即输出一般是离散的监督学习和无监督学习：监督学习：通过训练让机器自己找到特征和标签之间的联系（注：也就...

2019-04-23 17:42:57 663

原创机器学习（十一）：新闻摘要提取小案例

注：基于现有案例教程完成一个相对简单的 “关键字提取” 算法，来达到最自然语言处理的一个初步的理解。词汇数据下载：http://labfile.oss.aliyuncs.com/courses/741/nltk_data.tar.gz也可以用下面的下载import nltknltk.download('stopwords')nltk.download('punkt')...

2019-04-22 18:59:11 1277

什么是自然语言处理：NLP（Natural Language Processing，自然语言处理）当中所谓的「自然」是为了与人造的语言（比如 C 语言， JAVA 等）区分开来，指自然形成的语言，即平时人们日常使用的交流的语言。「语言」则是人类区别其他动物的本质特性。在所有生物中，只有人类才具有语言能力。人类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式，人类的绝大部分知识也是以...

2019-04-22 16:40:28 504

原创机器学习（九）：鸢尾花-逻辑回归

注：基于现有案例教程鸢尾花数据来源于seaborn中自带的数据集，很多类似的都会自带这个数据集代码如下：import pymc3 as pmimport pandas as pdimport scipy.stats as statsimport theano.tensor as ttimport seaborn as snsimport matplotlib.pyplot ...

2019-04-22 15:55:09 1492

原创机器学习（八）：nba数据分析小案例

注：基于实验楼一个小项目数据下载地址：http://labfile.oss.aliyuncs.com/courses/782/data.zip代码如下：import pandas as pdimport mathimport csvimport randomimport numpy as npfrom sklearn import linear_modelfrom s...

2019-04-21 22:31:22 2435 1

原创机器学习（七）：k邻近算法初级浅析案例

注：基于现有小案例攥写K 近邻算法采用测量不同特征值之间的距离方法进行分类：优点：精度高、对异常值不敏感、无数据输入假定。缺点：计算复杂度高、空间复杂度高。K 近邻算法适用数据范围为：数值型和标称型标称型：标称型目标变量的结果只在有限目标集中取值，如真与假数值型：数值型目标变量则可以从无限的数值集合中取值，如0.100，42.001等工作原理：存在一个样本数据集合，也...

2019-04-19 16:08:17 216

原创机器学习（六）：初级matplitlib绘图-之前的微补充

将一张图绘制在另一张图的内部：fig = plt.figure() # 新建画板axes1 = fig.add_axes([0.1, 0.1, 0.8, 0.8]) # 大画布axes2 = fig.add_axes([0.2, 0.5, 0.4, 0.3]) # 小画布# 大画布axes1.plot(x, y, 'r')# 小画布axes2.plot(y, x, 'g')...

2019-04-18 19:01:33 447

原创机器学习（五）：初级matplitlib绘图-其他绘图样式和3维绘图

注（百度百科案例）使用二维数据集和其他一些数据：散点图：import numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltnp.random.seed(2000)y = np.random.standard_normal((1000,2))plt.figure(figsize=(7,5))pl...

2019-04-18 18:43:02 515

原创机器学习（四）：初级matplitlib绘图-2维绘图

注：百度百科案例首先，我们必须导入对应的库。主要的绘图函数在子库matplotlib.pyplotimport numpy as npimport matplitlib as nmlimport matplotlib.pyplot as plt%matplotlib inline注：%matplotlib inline是再使用jupyter notebook或者jupyter...

2019-04-18 17:42:50 643

原创机器学习（三）：决策树，随机森林

树形模型是机器学习中最为常用的模型之一，其同KNN算法一样，也是弱假设型模型。而树形模型里面的决策树是bagging、随机森林以及boosting的基础，因此想要了解随机森林，首先要了解决策树：决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。常见的决策树算法有C4.5、ID3和CART。而一个树形模型经常包含以下定义：根节点...

2019-04-18 10:13:09 785

原创机器学习（二）：线性回归浅谈

定义：线性回归：用一条直线较为准备的描述数据之间的关系（注：通过属性的线性组合来进行预测的线性模型，找到一条直线或者一个平面，使得预测值与真实值之间的误差最小，常见于房价的预测）特点：计算熵不复杂，但是对非线性的拟合并不好注：（建模速度快，不需要很复杂的计算，在数据量大的情况下依然运行速度很快。可以根据系数给出每个变量的理解和解释。对异常值很敏感。）问题：假定现有一个房价数...

2019-04-17 10:59:19 315

原创机器学习（一）：监督学习与非监督学习

首先来一个大概的定义：监督学习：通过训练让机器自己找到特征和标签之间的联系（注：也就是学习的训练集包含输入和输出，得到了最优参数模型之后，新来的数据集在面对只有特征没有标签的情况下时，可以判断出标签）无监督学习：训练数据中只有特征没有标签，输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类。（注：不一定"分类"，没有训练集，旨在寻找规律性，不予...

2019-04-13 11:21:39 717

原创 The maximum path component name limit

今日同事一个测试的任务经常异常退出查看相关job日志：org.apache.hadoop.yarn.exceptions.YarnRuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.FSLimitException$PathComponentTooLongExce...

2019-03-06 10:34:45 1859

原创 hive小文件造成map多

问题现象：hive查询时生成了大量的map，损耗了过多的cpu资源，参数调配没有生效问题分析：hive的map数是由设定的inputsplit size来决定，hive封装了hadoop给出了inputformat的接口，用于描述输入数据的格式，并交由hive.input.format参数所决定，其中包含了两种主要使用类型：1：HiveInputFormat 2：CombineH...

2018-12-21 10:32:22 1409

原创 kafka参数整理

首先感谢很多先辈们的总结，让我省去了很多思考的功夫，更快的整理出这些从0.10.0 kafka官网中查询到的参数，但是感觉官网列出的这些参数不是很全，后续发现新参数会逐步添加到这个里面。如果有同事发现错误的地方或者有个人见解的地方也请留言，我会感谢并进行整合修改。Listeners默认值：null描述：例如PLAINTEXT://172.16.49.173:9093 advertised.host...

2018-03-14 18:03:21 2110

原创关于xlearning的安装使用初步简介

最近发现了一个做事很认真的做算法同事，身上很多优点值得我学习，推荐使用了一种360的开源工具，可以将tensoeflow提交至yarn里面。这个工具感觉解决了很多问题。我这个人比较懒，大部分工作都是我那个同事研究成功的，然后我坐享其成，等着验证结果。特此在这里将他的成果记录下来：参考网址:https://github.com/Qihoo360/XLearning/blob/master/R

2017-12-22 14:44:56 5320 1

原创关于pyspark 使用过程中需要python版本不同的需求

最近碰到了一个问题，挺有意思，是在使用spark过程中需要用到pyspark，而本地接口机的python版本太低，只有python 2.6版本，需求需要python 2.7版本甚至python 3版本。但是在使用过程中不允许修改主机自带的python。怎么办呢。只能手动下载指定。其中又分为 anaconda 版本的python，还有直接python官网下载python包安装。其中ana

2017-12-20 10:37:58 16094 2