自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(195)
  • 资源 (12)
  • 收藏
  • 关注

原创 机器学习之聚类算法的原理推导及相关知识总结

1、知道几个关于”差”的概念2、理解相似度度量的各种方法和相互关系2.1、欧氏距离2.2、jaccard相似系数2.3、余弦相似度2.4、Pearson相似系数3、掌握掌握K-Means算法3.1、知道聚类的思想3.2、K-Means算法原理3.3、知道K-Mediods聚类3.4、如何选取K-means的初始值3.5、K-means的目标函数4、知道聚类的衡量...

2018-09-15 17:00:54 1787

原创 机器学习之支持向量机(SVM)总结

目录:1、知道SVM相关的各种概念2、知道目标函数、损失函数、正则项的意义2.1、目标函数2.2、损失函数2.3、正则化(添加噪音避免过拟合)3、了解SVM算法原理4、知道SVM的目标函数5、知道SVM的损失函数以及公式6、知道SVM支持向量机的计算过程6.1、推导过程:6.2、推导实例7、了解核函数相关知识8、了解SVM算法的调参技巧目录:...

2018-09-12 20:39:35 1912

原创 机器学习之提升算法

1、知道提升、梯度提升是什么意思1.1、提升1.2、梯度提升1.3、了解提升算法的过程2、残差与残差平方和(residual sum of squares)3、了解GBDT算法4、了解XGBoost算法5、了解Adaboost算法5.1、Adaboost算法的原理5.2、例子6、偏差和方差1、知道提升、梯度提升是什么意思1.1、提升每一步产生一...

2018-09-10 20:07:09 951

原创 机器学习之决策树与随机森林

目录1、了解熵、条件熵、互信息的概念及公式1.1、熵1.2、条件熵1.3、信息增益/互信息2、了解决策树2.1、了解决策树的概念和特点以及和熵的关系2.2、了解树生成的过程2.3、了解决策树三种算法的区别2.4、了解决策树的损失函数2.5、了解解决决策树过拟合的方法2.6、了解后剪枝的过程3、了解Bagging和随机森林4、掌握样本不均衡常用的处理方法...

2018-09-02 22:30:02 758

原创 机器学习之回归总结

目录1、了解线性回归2、了解似然函数3、了解交叉验证的原理4、梯度下降算法1、批量梯度下降算法(Batch Gradient Descent,简称BGD):2、随机梯度下降算法(SGD):3、折中:5、了解一些参数指标6、了解Logistic回归7、了解最小二乘法目录1、了解线性回归当只有一个变量的时候,可以表示为下面的式子。 当为多个特征...

2018-09-02 16:52:05 1223

原创 机器学习之凸优化原理推导及相关知识总结

1、了解凸集和仿射集的基本概念。凸集:在凸集内部的两个点之间的线段仍在图形内,则称这个图形为凸集。 仿射集:通过集合中任意两个不同点的直线仍然在这个集合内则称为这个集合的仿射集。 仿射集说的是直线,凸集说的是线段。 2、知道几何体的向量表达。两个θ+(1-θ)=1代表的是两个点之间的关系是直线关系,如果不等于1则代表是其他的非线性的关系。 3、了解超平面和半空间的概...

2018-09-01 13:43:48 1470

原创 机器学习之线性代数总结

目录1、SVD是什么、表达式是什么及对应的数学含义;2、了解方阵、行列式的含义(方阵即矩阵,行列式即矩阵的计算结果)3、了解代数余子式的概念4、伴随矩阵的概念5、知道方阵的逆的公式、范德蒙行列式6、知道矩阵的乘法实际上对应的是一个维度的空间到另一维度空间的映射7、知道矩阵的秩的概念8、知道系数矩阵、正交阵9、掌握特征值和特征向量目录1、SVD是什么、表达...

2018-08-31 14:08:33 1241

原创 SecureCRT常用的使用技巧

目录前言:1、SecureCRT 超时自动断开连接的解决办法2、SecureCRT连接Linux时,终端显示乱码的问题。3、SecureCRT使用自动记录日志功能目录前言:由于工作需要,要经常玩SecureCRT,所以还是希望能好好了解下这个软件,以下是一些常用的功能,后续后接着补充。1、SecureCRT 超时自动断开连接的解决办法在利用Sec...

2018-08-31 13:32:51 2928

原创 Sqoop的安装配置及工作机制

目录:1、简介2、sqoop安装2.1、下载并解压2.2、修改配置文件2.3、加入mysql或oracle的jdbc驱动包2.4、验证启动3、Sqoop的原理3.1、代码定制目录:1、简介sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、H...

2018-08-30 16:55:23 429

转载 利用Sqoop在数据库和Hive、HDFS之间做ETL操作

目录:一、利用Sqoop,从Oracle到HDFS二、利用Sqoop,从Oracle到Hive目录:一、利用Sqoop,从Oracle到HDFS第一步:把Oracle驱动拷贝到Sqoop安装路径中的lib文件夹下。第二步:切换账户su hdfs第三步:执行import操作sqoop import --connect jdbc:oracle:thin:@...

2018-08-30 16:13:00 1784

原创 玩Linux碰到的问题以及使用技巧总结

1、问题问题一:解压JDK报错:gzip:stdin:not in gzip format。 问题二:在Linux下ping不通外网 问题三:解决虚拟机克隆后网卡eth0不见的问题 问题四:执行脚本报错:syntax error: unexpected end of file或syntax error near unexpected token `fi’或-bash bad inter...

2018-08-30 15:23:19 890

转载 Hive报错:Error: FUNCTION 'NUCLEUS_ASCII' already exists. (state=X0Y68,code=30000)

Hive执行schematool -initSchema -dbType derby报错。 报错的日志:doupeihua@doupeihua-2104 ~/software/hive/bin $ schematool -initSchema -dbType derbySLF4J: Class path contains multiple SLF4J bindings.SLF4J: F...

2018-08-30 11:21:18 4696 1

原创 CentOS下安装VirtualEnv的教程

前言:在目前的Linux系统中,默认使用的都是Python 2.7.x的版本环境,如何想要在其上基于Python3的环境来进行开发,则需要基于VirutalEnv来构建独立的开发环境。1、下载安装virutalenv执行pip命令 >> pip install virtualenv[root@xxxZ]#

2018-08-30 10:43:43 3126

转载 使用python3连接hiveserver2的方法

需求:需要通过windows端的pycharm来操作hive。 于是就搜集资料寻找解决方案。 大概有三种方式:pyhs2 连接 hive,但是这个项目已经没有人维护了,弃用。Pyhive连接hive。imply连接hive。协商后决定还是用imply。 以下是整个安装以及验证的过程:1、启动HiveServer2shell > cd /usr/local/apa...

2018-08-30 10:34:55 3975

转载 配置hiveserver2访问hive

1、前言作为数据仓库的工具,hive提供了两种ETL运行方式,分别是通过Hive 命令行和beeline客户端;命令行方式即通过hive进入命令模式后通过执行不同的HQL命令得到对应的结果;相当于胖客户端模式,即客户机中需要安装JRE环境和Hive程序。beeline客户端方式相当于瘦客户端模式,采用JDBC方式借助于Hive Thrift服务访问Hive数据仓库。HiveThri...

2018-08-30 10:03:19 1872

原创 beeline连接hiveserver2报错:User: root is not allowed to impersonate root

最近在生产中搭建HA机制的集群,碰到不少坑,会在接下来的时间里好好总结下,先说下遇到的一个大坑。我们的需求是:希望通过hive的thrift服务来实现跨语言访问Hive数据仓库。但是第一步,你得需要在节点中打通服务器端(启动hiveserver2的节点)和客户端(启动beeline的节点)的链接。整体的结构如下图所示: 但是整个的配置过程可谓是一波三折,现在数据1节点启动hiveserver...

2018-08-29 18:07:51 21676 11

原创 机器学习之数理统计与参数估计的相关知识总结

1、知道期望/方差/偏度/峰度,协方差和相关系数,独立和不相关等这些概念是什么。期望(均值):离散型和连续型。(求面积) 方差:表示数据的离散程度。对应的表达式:E(x2)-E2(x) 偏度的数学含义:衡量随机变量概率分布的不对称性。 峰度的数学含义:是概率密度在均值处峰值高低的特征。 标准差:方差开平方 协方差:表示两个变量的离散程度。是方差的一般形式。协方差是两个...

2018-08-26 22:59:16 741

原创 linux命令行在任意目录下启动任意的脚本的方法

这应该算是一个常识吧,但是对于许多像我们这样的新手来说,一旦你出点小差错,整个过程就会很曲折。碰巧今天就遇到了这样的问题。 下面是查过资料后总结的解决方法:简单说PATH就是一组路径的字符串变量,当你输入的命令不带任何路径时,LINUX会在PATH记录的路径中查找该命令。有的话则执行,不存在则提示命令找不到,也就是我们经常看到的-bash: ***: command not found。比如...

2018-08-25 23:37:24 28305 2

原创 Hbase2.0版本安装教程

最近由于工作需要又把HBase重装了一遍,发现还是需要自己总结下安装过程,不然等到再次装的时候,还是会碰到很多坑。由于出了新版本,所以这里自己就找的比较新的版本来玩。 我的环境:Hadoop2.6.4+Centos6.7minimal版本+Hive2.1.1+Hbase2.01. 上传将下载好的Hbase上传到Centos。2. 解压(这里就懒得改这个版本名称了。。)...

2018-08-21 15:23:30 3430

转载 Linux下快速安装MySQL教程

转自:https://blog.csdn.net/sl1992/article/details/53634674 亲测整个过程非常快捷,基本1分钟就能搞定。Linux下安装MySQL 虚拟机使用的是CentOS6.7环境1.执行yum install mysql-server进行安装Linux系统需要能进行网络连接 2.输入y进行确认 再次确认 输入y进...

2018-08-20 15:48:03 919

原创 机器学习中的数学基础相关知识总结

以下为自己在学习机器学习的过程中总结的所需的一些基本的数学知识,如有不足或错误请指出,会保持不断的更新。1、导数(曲线变化的快慢)、二阶导数(曲线斜率变化的快慢特别是反映曲线的凸凹性)的概念。 2、常用的导数公式: 3、微分和积分的数学含义:微分对应的是导数、积分对应的是面积。除此之外要了解对应的常见的计算操作如分部积分操作等。 4、泰勒公式及含义 一句话说明泰勒公式的含义:用...

2018-08-19 16:52:09 721

原创 在 Pycharm下使Python2和Python3共用Anaconda中的各种库/包的解决方法

参考:https://www.cnblogs.com/MoonST/p/7610460.html 最近在看一些机器学习方面的教程,里面的一些实践Demo用的是py2的环境并且其中用到一些各种第三方的库,我想运行这些Demo,就需要满足以下两个条件: 1、py2条件 2、py2条件下有各种第三方的库 py2环境条件可以在Pycharm中创建(这也是该篇文章的前提条件, 详情参考:https...

2018-06-26 10:23:03 4923

原创 如何用余弦定理来进行文本相似度的度量

在做文本分析的时候,经常会到说将文本转化为对应的向量,之后利用余弦定理来计算文本之间的相似度。但是最近在面试时,重复上面这句话,却被面试官问到:“什么是余弦定理?”当时就比较懵逼,于是把余弦定理求文本相似度的过程叙述了一遍:“将样本转化为对应的空间中的两个向量,然后计算两个向量余弦值,之后根据余弦值的大小来判断两个样本相似度有多少”,但是话音刚落就被面试官否定了,当时感觉自己说的是正确的,但是由于...

2018-06-22 16:27:00 3585

原创 Doc2Bow简介与实践Demo

Doc2Bow是Gensim中封装的一个方法,主要用于实现Bow模型,下面主要介绍下Bow模型。1、BoW模型原理Bag-of-words model (BoW model) 最早出现在自然语言处理(Natural Language Processing)和信息检索(Information Retrieval)领域.。该模型忽略掉文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,...

2018-06-05 11:21:55 21291 3

原创 FastText原理总结

1、应用场景fastText是一种Facebook AI Research在16年开源的一个文本分类器。 其特点就是fast。相对于其它文本分类模型,如SVM,Logistic Regression和neural network等模型,fastText在保持分类效果的同时,大大缩短了训练时间。2、优缺点适合大型数据+高效的训练速度:能够训练模型“在使用标准多核CPU的情况下10分...

2018-06-05 11:03:40 32812 3

原创 LSI/LSA算法原理与实践Demo

1、使用场景文本挖掘中,主题模型。聚类算法关注于从样本特征的相似度方面将数据聚类。比如通过数据样本之间的欧式距离,曼哈顿距离的大小聚类等。而主题模型,顾名思义,就是对文字中隐含主题的一种建模方法。比如从“人民的名义”和“达康书记”这两个词我们很容易发现对应的文本有很大的主题相关度,但是如果通过词特征来聚类的话则很难找出,因为聚类方法不能考虑到到隐含的主题这一块。 那么如何找到隐含的主题呢?这...

2018-06-05 10:38:25 20175 7

原创 CCF推荐各种国际学术会议和期刊目录

这是中国计算机学会推荐国际学术会议和期刊目录2015年版本的内容, 主要罗列了国际上计算机相关的各个方向的顶级学术会议和期刊目录(包含A、B、C三个等级)。 包含的方向有:计算机体系结构/并行与分布计算/存储系统计算机网络网络与信息安全软件工程/系统软件/程序设计语言数据库/数据挖掘/内容检索计算机科学理论计算机图形学与多媒体人工智能人机交互与普适计算交叉/综合/新兴...

2018-06-01 10:58:32 8617

转载 一文看懂哈夫曼树与哈夫曼编码

转自:http://www.cnblogs.com/Jezze/archive/2011/12/23/2299884.html在一般的数据结构的书中,树的那章后面,著者一般都会介绍一下哈夫曼(HUFFMAN)树和哈夫曼编码。哈夫曼编码是哈夫曼树的一个应用。哈夫曼编码应用广泛,如JPEG中就应用了哈夫曼编码。 首先介绍什么是哈夫曼树。哈夫曼树又称最优二叉树,是一种带权路径长度最短的二叉树。所谓树...

2018-06-01 10:23:01 8206 2

转载 机器学习中目标函数、损失函数以及正则项的通俗解释

前言:今天看到一篇很精简的文章来说明目标函数、损失函数以及正则项是什么。以下是文章正文。 转自:https://xiaozhuanlan.com/topic/7504682391什么是目标函数?定义是:指所关心的目标与相关的因素的函数关系。举个例子,假如我们想要预测公司楼下手抓饼店明天能卖多少张手抓饼,已知过去10天每天卖多少,以及每天的天气情况,是否有节假日,和手抓饼店老板和老...

2018-05-30 16:46:19 4066 2

原创 Doc2Vec实践

前言:最近由于要开发一款项目,就想用doc2vec来实现其中的推荐功能,根据用户输入的问题利用doc2vec返回相似的问题。 以下是整个Demo的实现过程,具体的详细代码请参考我的Git:https://github.com/645187919/doc2vecDemo对于doc2vec来说其实内部原理也是先拿到尽可能多的数据生成一个model然后根据输入再在model中进行匹配,得到对应...

2018-05-30 11:35:46 5500 10

转载 Word2Vec&Doc2Vec总结

转自:http://www.cnblogs.com/maybe2030/p/5427148.html1、词向量自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化。   NLP 中最直观,也是到目前为止最常用的词表示方法是 One-hot Representation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只...

2018-05-28 11:45:00 13704

原创 AIML知识库数据匹配原理解析

前言:关于AIML库这里就不介绍了,详细的介绍及简单的使用请参考我的上一篇博客:https://blog.csdn.net/qq_16633405/article/details/80228697 这里主要介绍下AIML知识库内部数据匹配的机制,以便我们能更好的使用AIML库。废话少说,直接进入正题了。1、AIML系统工作流程AIML系统工作流程如图1所示。 第一步:系统初始化...

2018-05-28 11:11:31 5283 11

原创 AIML元素详细说明

前言:智能客服客户咨询功能的实现主要依靠的就是Python的AIML库,这里就先介绍下AIML。 详细的使用教程可参考:https://github.com/andelf/PyAIML 目前大部分AIML只支持Py2.7版本并且不支持中文,即使有支持Py3且支持中文的版本,AIML的一些功能也有一些缺陷,但是黄天不负有心人,经过博主不断的搜寻,最终找到了一款算是比较稳定的支持Py3版本的A...

2018-05-07 17:22:58 3893 1

原创 word2vec中单词向词向量的转换过程详解

前言:针对word2vec是如何得到词向量的?这篇文章肯定能解决你的疑惑。该篇文章主要参考知乎某大神的回答,个人在此基础上做了一个总结。word2vec是如何得到词向量的?这个问题比较大。从头开始讲的话,首先有了文本语料库,你需要对语料库进行预处理,这个处理流程与你的语料库种类以及个人目的有关,比如,如果是英文语料库你可能需要大小写转换检查拼写错误等操作,如果是中文日语语料库你需要增加分词...

2018-05-07 16:41:00 18771 2

原创 聊天机器人的分类及综述

前言:最近由于工作需要,要开发一款智能客服,目前正在搞业务咨询模块的功能,所以这里就记录下整个过程,权当是学习笔记吧。实现一款智能客服根据实现的功能不同要用到不同的技术,如面对客户提问的问题的匹配方面可以通过正则表达式或者Python中的AIML库来实现;对于相似问题的推荐可以采用数据库的关键字检索或者将问题向量化后通过ML方式来实现等,对于问题向量化的技术又牵涉到NLP的相关技术,如对句子的...

2018-05-07 15:36:35 4821 1

原创 玩Python遇到的问题一二三及解决办法

最近要频繁的玩Python,在这里总结下遇到的一些问题,持续更新中。问题一:python 2.7版本解决TypeError: ‘encoding’ is an invalid keyword argument for this function。 用Python2.7来打开一些文件的时候,经常出现以上的所表示的问题,如data_file = open("F:\\MyPro\\data...

2018-05-07 14:28:15 7530 2

原创 如何打开.ipynb文件

最近碰到文件名后缀为.ipynb文件,起初没太在意这种文件格式,用Notepad++打开之后看到也是类似于JSON格式的信息,以为也是为其他的一些文件服务的(类似于配置一些HTML文件的配置文件)。但是后来才发现这也是一种文本表示形式,只不过需要特殊的工具才能打开展示(小菜鸟才疏学浅,之前连这种格式的文件都没见过。。。) OK,废话少说,直接切入重点说下.ipynb文件的三种打开方式: 1,G...

2018-05-04 18:02:59 130839 21

原创 如何安装多个Python版本以及在Pycharm中切换Python版本

前言:最近由于工作需求,要在不同环境下玩Python,所以就有了以上的需求,查了一部分资料后,总结记录下整个问题的解决过程,方便后来者少跳坑。 参考:https://blog.csdn.net/dream_an/article/details/51248736 参考:https://blog.csdn.net/sinat_36246371/article/details/55251854...

2018-04-22 10:32:15 41088 9

原创 windows环境下,如何在Pycharm下安装TensorFlow环境

原文转自:https://blog.csdn.net/u012052268/article/details/74202439 最近由于工作需要要使用TensorFlow,所以只能狂补相关的知识。本来博主打算在Ubantu上玩,但是由于一些原因还是放弃了这个想法,就转移到Pycharm上来玩。以下是自己在收集资料的过程中看到一篇很好的安装教程,分享一下。1.安装Anaconda选择相应的A...

2018-04-14 16:42:29 59982 18

转载 Ubantu下使用vi时,方向键变字母输出、退格键无法删除字符的解决办法

最近由于要玩TensorFlow,所以把尘封已久的Ubantu给打开了,不过配置网络的时候,算是一团糟,出现了在插入模式下,输入方向键不能移动光标而是变成了乱码;退格键不能删除字符,只能移动光标的问题。真被的搞的“焦头烂额”。后来找到一篇不错的文章总算把问题解决了,这里记录下,权当是笔记吧。 问题的解决有以下几种方法: 一、编辑/etc/vim/vimrc.tiny由于/etc/vim/vimr

2018-04-12 09:04:05 5399 1

中国计算机学会推荐各种国际学术会议和期刊目录

中国计算机学会推荐各种国际学术会议和期刊目录包含主要罗列了国际上计算机相关的各个方向的顶级学术会议和期刊目录(包含A、B、C三个等级)。 包含的方向有: 计算机体系结构/并行与分布计算/存储系统 计算机网络 网络与信息安全 软件工程/系统软件/程序设计语言 数据库/数据挖掘/内容检索 计算机科学理论 计算机图形学与多媒体 人工智能 人机交互与普适计算 交叉/综合/新兴

2018-06-01

Linux命令大全.chm版下载

Linux离线手册,内部包含汉化的Linux命令格式及详细解释 Linux命令大全(修改版) 文件传输 备份压缩 文件管理 磁盘管理 磁盘维护 系统设置 系统管理 文档编辑 网络通讯 bye 功能说明:中断FTP连线并结束程序。 语  法:bye 补充说明:在ftp模式下,输入bye即可中断目前的连线作业,并结束ftp的执行。 ftpcount 功能说明:显示目前以FTP登入的用户人数。 语  法:ftpcount 补充说明:执行这项指令可得 知目前用FTP登入系统的人数以及FTP登入人数的上限。

2017-10-21

staruml-5.0

uml建模工具,常用于构建各种UML模型。简单快捷,欢迎使用

2017-10-19

mysql-connector-java-5.1.32.jar

hive安装。本地独立模式:在本地安装Mysql,元数据放到mySql内。支持hive数据方放入mysql的jar包

2017-10-18

hive-0.9.0

hive的低版本,适用于hadoop2.x版本,防止安装过程发生各种错误

2017-10-18

startuml中文版

startuml中文版敖德萨多adad阿斯蒂芬烦死哒更改阿道夫个电饭锅电饭锅十多个十多个但是合适的防守打法安抚发的萨芬

2017-09-27

工具Tomcat

一个简单的工具用于大数据中在网页上查看HDFS等资源,这时linux系统常用的软件之一,其他的软件会接着上传。

2017-09-18

钱能C++程序设计教程第二版课后答案

找了很久才找到的课后答案,属于稀缺资源

2017-02-21

二维码相关功能实现的类库

一个关于二维码扫描和二维码名片生成功能实现的类库,可引入工程中 实现配合我之前的文章,实现上述功能的实现

2016-10-19

微信图标大全包含APP中各种图标

APP中的各种图标,便于前端小伙伴直接获取图标。

2016-09-11

开源天气预报软件

开源天气预报软件

2016-08-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除