weixin_42774642-CSDN博客

转载 CentOS7 Cloudera Manager6 完全离线安装 CDH6 集群

CentOS7 Cloudera Manager6 完全离线安装 CDH6 集群本文是在CentOS7.4 下进行CDH6集群的完全离线部署。CDH5集群与CDH6集群的部署区别比较大。说明：本文内容所有操作都是在root用户下进行的。文件下载首先一些安装CDH6集群的必须文件要先在外网环境先下载好。Cloudera Manager 6.3.0CM6 RPM：https:/...

2020-04-26 11:21:30 536

转载一文弄懂神经网络中的反向传播法——BackPropagation

　　最近在看深度学习的东西，一开始看的吴恩达的UFLDL教程，有中文版就直接看了，后来发现有些地方总是不是很明确，又去看英文版，然后又找了些资料看，才发现，中文版的译者在翻译的时候会对省略的公式推导过程进行补充，但是补充的又是错的，难怪觉得有问题。反向传播法其实是神经网络的基础了，但是很多人在学的时候总是会遇到一些问题，或者看到大篇的公式觉得好像很难就退缩了，其实不难，就是一个链式求导法则反...

2020-03-11 16:32:48 137

原创聚类--KM、DBACSN，层次聚类

1. 聚类对于聚类，关键一步是要告诉计算机怎样计算两个数据点的相似性，不同的算法需要的相似性是不一样的。1.1. DBSCAN1.1.1. DBSCAN原理 DBSCAN核心原理就是密度聚类的原理：寻找出稠密的地方，把它们当做一个簇，也就是密度相连的区域，我们把它当成一个簇。 “DBSCAN如何发现簇？”初始，给定数据集D中的所有对象都被为‘unv...

2020-03-06 16:35:09 1041

原创推荐系统实战-数据链接

https://grouplens.org/datasets/movielens/

2020-03-02 18:39:00 138

转载入门推荐系统，你不应该错过的知识清单

提纲：入门书籍入门教程公开数据集项目代码技术博文学术会议应用领域推荐系统入门书籍：1.《推荐系统实践》作者：项亮《推荐系统实践》入门首选。这本书是国内第一本讲推荐系统的书，能让你快速知道如何把学到的理论知识应用到实践，如何将编程能力应用到推荐系统中去。虽然书中列举的代码存在一些争议，但瑕不掩瑜。强烈推荐！2.《集体智慧编程》（...

2020-03-02 17:36:14 233

转载自然语言处理(NLP)一些任务的总结

本节总结一下NLP中常见的任务，从一个全局观来看看NLP：NLP任务总结一：词法分析分词 (Word Segmentation/Tokenization, ws): 在对文本进行处理的时候，会对文本进行一个分词的处理，下面是一个常用的词库。库开源or商业支持语言分词词性标注命名实体识别费用 HanLP 开源 J...

2020-03-02 16:35:43 1636

转载理解L1，L2 范数

链接：https://www.zhihu.com/question/26485586/answer/616029832理解L1，L2 范数L1，L2 范数即 L1-norm 和 L2-norm，自然，有L1、L2便也有L0、L3等等。因为在机器学习领域，L1 和 L2 范数应用比较多，比如作为正则项在回归中的使用 Lasso Regression(L1) 和 Ridge Regressi...

2020-02-28 18:12:19 1164

转载深度学习领域的神文(带注释版)

综合重磅！深度学习 500 问更新，GitHub 2.6W 星（附完整下载） - 红色石头的文章 - 知乎https://zhuanlan.zhihu.com/p/71979604神经网络与深度学习(github,国人总结整理的)https://nndl.github.io/这是作者多年以来学习总结的笔记，经整理之后开源于世。写得相当好:http://www.huaxiaozhuan.co...

2020-02-26 14:44:59 211

转载机器学习-归一化、标准化的作用

目录（一）归一化的作用（二）归一化的方法（三）应用场景说明（四）参考文献：（一）归一化的作用在机器学习领域中，不同评价指标（即特征向量中的不同特征就是所述的不同评价指标）往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级...

2020-02-26 12:28:23 610

转载 centos6.9安装yum和其依赖

（升级或卸载Python导致 yum出错）一：升级python导致yum出错　　1.cd /usr/bin/yum　　2.#!/usr/bin/python 修改为 #!/usr/bin/python2.6　　　　　　二：完全重装python和yum（卸载系统的安装的python）　　<1> 删除python包　　　　1. wh...

2020-02-19 17:10:31 2577

转载 Spark性能调优-集群资源分配策略

展开开发完成Spark作业之后，我们在运行Spark作业的时候需要为其配置一些资源参数，比如num-executors，executor-memory等，这些参数基本上都是可以在spark-submit命令中作为参数设置，但是如何设置合适的参数值是需要我们权衡考虑的（集群资源，调优经验，任务大小等）。参数设置的不合适往往会导致集群资源得不到有效的利用，设置的太大可能会导致资源不够而引发异常，太...

2020-01-29 12:17:00 264

转载 LightGBM原理及实现

LigthGBM是boosting集合模型中的新进成员，它和xgboost一样是对GBDT的高效实现，很多方面会比xgboost表现的更为优秀。原理上它和GBDT及xgboot类似，都采用损失函数的负梯度作为当前决策树的残差近似值，去拟合新的决策树。LightGBM vs xGBoostxgBoost算法的优点：XGB利用了二阶梯度来对节点进行划分，相对其他GBM来说，精度更高。...

2020-01-16 17:30:41 1161

转载 LightGBM介绍及参数调优

1、LightGBM简介　　LightGBM是一个梯度Boosting框架，使用基于决策树的学习算法。它可以说是分布式的，高效的，有以下优势：　　1）更快的训练效率　　2）低内存使用　　3）更高的准确率　　4）支持并行化学习　　5）可以处理大规模数据　　与常见的机器学习算法对比，速度是非常快的　　2、XGboost的缺点　　在讨论LightGBM时，不...

2020-01-16 17:13:45 797

转载 KMeans

概念：聚类分析（cluster analysis ）：是一组将研究对象分为相对同质的群组（clusters）的统计分析技术。聚类分析也叫分类分析，或者数值分类。聚类的输入是一组未被标记的样本，聚类根据数据自身的距离或者相似度将其划分成若干个组，划分的原则是组内距离最小化而组间（外部）距离最大化。聚类和分类的不同在于：聚类所要求划分的类是未知的。聚类度量的方法：分距离和相似度来度量。...

2020-01-14 17:53:57 907

转载 bert 三个嵌入层如何实现

https://www.cnblogs.com/d0main/p/10447853.html目录引言概览 Token Embeddings 作用实现 Segment Embeddings 作用实现 Position Embeddings 作用实现合成表示结论参考文献本文翻译自Why BERT has 3 Embedding Lay...

2020-01-14 11:12:38 1301

转载模拟退火

//根据标记，进行分割操作、可以是分句或者分词def segment(text, segs): words= [] last = 0 for i in range(len(segs)): if segs[i] =='1': words.append(text[last:i+1]) last = i+1 words...

2020-01-14 10:04:46 107

转载 NLP中mask矩阵

mask矩阵是什么？是一个由0和1组成的矩阵。一个例子是，在自然语言处理(NLP)中，句子的长度是不等长的，但因为我们经常将句子组成mini-batch用以训练，因此那些长度较短的句子都会在句尾进行填充0，也即padding的操作。一个mask矩阵即用以指示哪些是真正的数据，哪些是padding。如：图片来源：Theano：LSTM源码解析其中mask矩阵中1代表真实数据；0代表paddin...

2020-01-14 09:47:18 609

转载 nlp中的segment

分词是一个更普遍的分割问题的一个实例。在这里我们还会看到分割问题的另外两个实例2.断句#NLTK的Punkt句子分割器sent_tokenizer=nltk.data.load(‘tokenizers/punkt/english.pickle’)text=nltk.corpus.gutenberg.raw(‘chesterton-thursday.txt’)sent...

2020-01-14 09:45:55 749

转载如何使用TensorFlow Hub和代码示例

任何深度学习框架，为了获得成功，必须提供一系列最先进的模型，以及在流行和广泛接受的数据集上训练的权重，即与训练模型。 TensorFlow现在已经提出了一个更好的框架，称为TensorFlow Hub，它非常易于使用且组织良好。使用TensorFlow Hub，您可以通过几行代码导入大型和流行的模型，自信地执行广泛使用的传输学习活动。TensorFlow Hub非常...

2020-01-13 21:02:53 400

转载 HIVE优化

由于Hive的执行依赖于底层的MapReduce作业，因此对Hadoop作业的优化或者对MapReduce作业的调整是提高Hive性能的基础。所以我们可以通过一系列的调优方法，来提高大幅度地Hive查询的性能。1、启用压缩压缩可以使磁盘上存储的数据量变小，通过降低I/O来提高查询速度。查出所使用的Hive版本支持的压缩编码方式，下面的set命令列出可用的编解码器(CDH 5.8.x中的H...

2020-01-13 15:27:35 131

转载大数据组件图谱

转载地址：http://blog.csdn.net/u010039929/article/details/70157376大数据组件图谱文件系统数据存储内存技术数据搜集消息系统数据处理查询引擎分析和报告工具调度与管理服务机器学习开发平台文件系统HDFSHadoop Distributed F...

2020-01-13 10:57:27 534

原创 Hadoop 01 配置

1. 安装好linux /boot 200M /swap 2g / 剩余 2. *安装VMTools3. 关闭防火墙 sudo service iptables stop sudo chkconfig iptables off4. 设置静态IP，改主机名编辑vim /etc/sysconfig/network-scripts/ifcf...

2019-11-02 18:50:39 110

原创 Spark 配置

解压 root@master:~# cd /usr/localroot@master:/usr/local# tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz 文件夹重命名 root@master:/usr/local# mv spark-2.3.0-bin-hadoop2.7 spark 配置环境变...

2019-10-28 15:36:24 150

原创 Hadoop-04 Yarn与Hadoop新特性

1. Yarn产生背景2. 初识Yarn3. Yarn运行机制4. Hdfs NameNode HA5. Hdfs NameNode Federation6. Hdfs Snapshots7. WebHDFS REST API8. DistCp9. ResourceManager Restart10. ResourceManager HA Yarn产生背...

2019-10-23 12:40:21 196

原创 HTML

HTML一、HTML概述1、HTML简介HTML指的是超文本标记语言（Hyper Text Markip Language），它不是一种编程语言而是一种标记语言，通过使用标签来描述网页。2、HTML结构HTML文件以.html结尾，里面包含两部分，首先是一个<!DOCTYPE html>标签，用于文档声明，标识文档的版本，来使浏览器正确识别；然后是一个<htm...

2019-10-23 12:36:43 82

原创 javascript

javascriptjavascript一、概述1、介绍1）关于scriptjavascript是嵌入HTML中在浏览器中的脚本语言，具有与java和c语言类似的语法。2）特点javascript可以使用任何文本编辑工具编写，由浏览器内置的javascript引擎执行代码。适宜：客户端数据计算客户端表单合法性验证浏览器事件的触发网页特殊显示效果...

2019-10-23 12:36:28 99

原创 Hadoop-03 MapReduce

目录1. MapRecude概述2. MapReduce编程模型3. MapReduce WordCount编程实例4. MapReduce类型5. MapReduce输入格式6. MapReduce输出格式7. COmbiner8. Partitioner9. RecordReader10. Join的MapReduce实现11. 排序的MapReduce实现...

2019-10-23 11:03:41 123

原创 Hadoop-02 HDFS

详细过程请看官方文档： https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSetup.html1.HDFS优点2.HDFS缺点3.hdfs设计目标4.hdfs基本概念5.hdfs操作6.hdfs文件读取流程7.hdfs写入流程8.hdfs副本机制9....

2019-10-23 11:01:59 94

weixin_42774642的博客