- 博客(33)
- 资源 (29)
- 问答 (2)
- 收藏
- 关注
原创 NLP系列之文本分类
1前言本篇博客主要是记录自然语言处理中的文本分类任务中常见的基础模型的使用及分析。Github上brightmart大佬已经整理出很完整的一套文本分类任务的基础模型及对应的模型代码实现。网上也有部分博客将brightmart写的模型实现步骤进行翻译整理出来了。本着尊重原创的原则,后面都列出了参考链接,在此也感谢参考链接上的作者。本文将对之前文本分类基础模型的博客和文献进行整理,此外再加上自己的一...
2019-01-18 19:30:24 5234 3
转载 机器学习中的LR 与 SVM 相同和不同
1.前言本篇博客是转载自LR 与 SVM 的相同和不同,在此感谢此篇博客的作者。笔者重新排版了一下,以方便日后自己回顾。2.SVM与LR的相同点的问题问题1:为什么将LR和SVM放在一起来进行比较?第一,LR和SVM都是分类算法。看到这里很多人就不会认同了,因为在很大一部分人眼里,LR是回归算法。我是非常不赞同这一点的,因为我认为判断一个算法是分类还是回归算法的唯一标准就是样本labe...
2018-09-28 16:51:11 557
原创 机器学习中你需要了解的各种熵
1前言信息熵是信息论和机器学习中非常重要的概念,信息是一个很抽象的概念,如何量化信息呢?香农提出了‘信息熵’概念来解决了这个问题。本篇博客主要是详细记录信息熵中的一些概念 (自信息,熵,交叉熵,相对熵,互信息,决策树中相关的熵),以方便自己日后回顾,所以不免从书上或者各篇博客中收集了素材,但是本着尊重原创,后面都列出了参考链接,在此也感谢参考链接上的作者。2各种熵的详细介绍2.1自信息自...
2018-09-28 16:11:38 1578
原创 Seq2Seq那些事
1前言本篇博客主要记录的是使用Tensorflow搭建Seq2Seq模型,主要包括3个部分的叙述:第一,Seq2Seq模型的训练过程及原理。第二,复现基于SouGouS新闻语料库的文本摘要的应用。第三,Seq2Seq模型中存在的问题及相应的Trick。 本篇博客参考多篇博客完成,主要是作为自己的学习笔记使用,但最终还是掺杂自己的理解和自己的亲身实现过程。后面会给出参考博客的链接。2浅谈S...
2018-07-28 00:40:58 13311 3
原创 蚂蚁金融NLP竞赛——文本语义相似度赛题总结
1前言许久没有更新博客了,主要是忙于考试周和最近参加的一个蚂蚁金融的NLP比赛——文本语义相似度赛题。话不多说,直奔主题。本篇博客主要记录的是自己入门NLP以来第一次参加NLP性质的赛题的详细解题过程。接下来将分成三个部分进行叙述:赛题描述、解题思路及相关代码实现、赛题总结. 项目代码地址及说明2赛题描述说明:问题相似度计算,即给定客服里用户描述的两句话,用算法来判断是否表示了相...
2018-07-13 22:04:26 32013 21
原创 Spark各种模式的环境搭建及相关工作流程介绍
1前言本篇博客主要记录的是Spark的3种运行模式及对应的模式环境搭建过程和流程介绍。3种模式都是经过实践记录详细的操作过程和注意事项。 在进行环境的配置过程中,建议先理解每个模式下的工作流程,然后再进行环境搭建,这样容易加深理解。由于Spark on YARN是搭建在HDFS分布式环境下的,所以此处可以参考一下Hadoop环境搭建及相关组件的工作流程介绍进行环境搭建,对应的软件下载地址密码...
2018-05-27 16:37:40 3236
原创 Hadoop环境搭建及相关组件的工作流程介绍
1前言本篇博客主要是记录Hadoop环境配置包括单机伪分布环境搭建,分布式环境搭建和Hadoop相关组件的工作流程介绍,包括HDFS读写流程,YARN的资源调度流程,MapReduce工作流程。 建议先理解各个组件的工作流程,再去配置环境会更容易理解。2Hadoop单机伪分布配置 说明:Windows的上一台虚拟机VM,系统Centos6.5,系统用户zkpk,超级用户root...
2018-05-24 11:45:40 2793
原创 机器学习算法——逻辑斯谛回归模型&最大熵模型
1前言本篇博客主要记录两个分类模型(逻辑斯谛回归模型和最大熵模型)原理及模型的代码实现,将这两个模型放一块的原因是这两个模型都是对数线性模型,都是由条件概率分布表示P(Y|X). 这两种机器学习的算法的实例都是基于Titanic数据集,关于数据集的特征工程部分就不具体介绍,笔者在其他博文中已经详细描述了,此篇博客将直接使用已经经过特征工程处理后的数据集进行模型训练。2逻辑斯谛回归模型...
2018-05-17 11:16:10 1443
原创 机器学习算法——感知机&支持向量机
1前言本篇博客主要详细介绍两种具有一定相似性的机器学习算法——感知机Perceptron和支持向量机SVM,该两种算法都是在特征空间中寻找划分平面从而对数据集进行划分的思想,但寻找划分平面的算法不同。划分平面的定义也有差距。本篇博客主要叙述思路为算法模型,代价函数,学习算法,最后的算法模型使用实例介绍。 这两种机器学习的算法的实例都是基于Titanic数据集,关于数据集的特征工程部分就不具体...
2018-05-11 11:20:56 7256
原创 决策树相关算法——XGBoost原理分析及实例实现(三)
1前言本篇博客作为前两篇XGBoost的原理与分析的续作三,主要记录的是使用XGBoost对kaggle中的初级赛题Titanic: Machine Learning from Disaster进行预测的实例,以此来加深自己对XGBoost库的使用。 前两篇XGBoost原理分析如下,本篇实例地址为Github 决策树相关算法——XGBoost原理分析及实例实现(一) 决策树相关算法...
2018-05-04 16:27:46 4318
原创 决策树相关算法——XGBoost原理分析及实例实现(二)
1前言本篇博客主要记录的是XGBoost在构建决策树结构时,知道如何评定划分点的好坏的情况下,如何遍历查找出该树结构的切分点。前篇博客决策树相关算法——XGBoost原理分析及实例实现(一)介绍的是贪心查找算法,逐步遍历特征和特征取值,比较切分前后的平方误差的大小,获得最佳切分点。本篇主要介绍的是近视查找算法和稀疏感知的划分查找。 2要说的话我们知道决策树中的ID3算法和C4.5...
2018-05-04 16:21:53 1183
原创 决策树相关算法——XGBoost原理分析及实例实现(一)
1.前言本篇博客主要叙述的是提升方法中的XGBoost,而XGBoost本身包含的技术点及算法优化太多,且网上已经有很多原理性的相关介绍了,但是笔者还是希望自己亲身走一遍XGBoost的原理理解过程,以此来更熟练的使用XGBoost。话不多说,此篇主要叙述基于CART决策树的XGBoost的代价函数的优化过程(即该模型的参数求解过程)。 前篇博客决策树相关算法——Boosting之Adabo...
2018-05-04 16:18:12 2037
原创 决策树相关算法——Boosting之Adaboost&GBDT详细说明与实现
前言 本篇博客主要记录的是集成学习中的Boosting提升算法的相关实现,主要分为以下四个部分,Boosting的提出,Boosting经典算法Adaboost的分析与实现,Adaboost算法的特例提升树的分析,梯度提升算法GBDT的提出原因及分析。 Github实现代码地址 补充: 对于机器学习类的算法,一般包括三个部分:算法模型(即定义的预测的输出表达式一般有逻辑回归、线性回...
2018-04-19 09:46:54 2586 2
原创 Hexo+Coding+Github部署个人博客Error全集
前言终于历经两天把我的Hexo+Coding+Github双部署个人博客网站给搭建好了,并将之前的博客进行了转移,期间真是历经磨难,泪崩了简直要。各种各样的问题,网上有些百度的到,但也有一些百度不到的,或者说讲述的比较模糊的,我在这将所有遇到的困难和解决方法都记录了下来。最后亮出我的博客网站——小简铺子1 解决ERROR Deployer not found: git/baidu_ur...
2018-04-10 17:48:51 3386 5
原创 自我修养一
前言都说清明时节雨纷纷,然而今天的广州却没有下一丝细雨,一个人坐在实验室中时不时能感受到窗外微风拂过带来的凉爽。听着歌,码着代码,突然感慨万千,想着记录一下吧,毕竟此时此刻此想不常有。经历生活经历主要记录一下自己读研以来的时期的经历吧,我是学计算机的,地道的程序员。 自2017年9月步入了自己的研究生...
2018-04-05 15:34:15 374 1
原创 决策树相关算法——Bagging之基于CART的随机森林详细说明与实现
1 前言1.1 本篇博客主要记录的是基于CART决策树实现的随机森林算法,主要是从以下四个方面介绍: CART决策树的构建思想;集成学习中的Bagging思想;基于CART决策树的随机森林代码实现;随机森林不易过拟合的分析。(其中不易过拟合并不是说随机森林不会过拟合) 1.2 本篇博客之前的一篇博客决策树相关算法——ID3、C4.5的详细说明及实现详细的记录了决策树的思想,概念及相关公式的详...
2018-04-05 13:41:57 4237 2
原创 决策树相关算法——ID3、C4.5的详细说明及实现
前言本篇博客记录的是使用python实现两个个决策树相关的算法模型—— ID3、C4.5。其中训练模型使用的数据集是Adult。尽管Sklearn包中都有这些算法的实现,但是自身根据算法思路实现一遍也是美滋滋的,其中酸甜自知(话说可以提高一定的代码编写能力和调试程序的能力),GitHub详细代码实现地址。1.实现前期准备工作 —— what1.1决策树的主要思想 决策树...
2018-04-02 22:08:57 10920 1
原创 卷积神经网络(TextCNN)在句子分类上的实现
说明本篇博客记录的是论文Convolutional Neural Networks for Sentence Classification中的实验实现过程,一篇介绍使用CNN对句子进行分类的论文。尽管网上有些代码已经实现了使用CNN进行句子分类(TextCNN),但是是基于Theano来实现的,本文将介绍使用TensorFlow来实现整个论文的实验过程,一方面熟悉使用TensorFlow AP...
2018-03-16 12:00:14 19271 31
原创 TensorFlow实现多层感知机及可视化训练过程中的数据记录
说明(what)本篇博客主要有2个目的,第一,记录学习使用TensorFlow的操作流程;第二,将TensorFlow训练数据模型过程中的参数数据进行可视化记录。具体操作(how)实例描述1.使用TensorFlow搭建一个3层的神经网络(输入层,隐藏层,输出层)的模型训练经典的MNIST数据集,从而来预测手写体数字。 2.训练过程中使用TensorBoard来可视化训练...
2018-03-02 16:43:55 4598
原创 Java并发编程基础(二)
本篇博客主要记录的是自己使用线程间通信的过程。并发常常伴随着多线程的运行,然后这就会涉及到多个线程间的配合工作,即线程间的通信。
2017-12-31 09:55:33 232
原创 Java并发编程基础(一)
本篇博客主要从三个方面记述。第一,对线程进行简要的介绍,理解什么是线程,为什么使用多线程。第二,介绍线程拥有的状态,以及线程各个状态之间的转换,并举相关的例子进行说明。第三,介绍线程的操作,对线程的创建、终止、中断、挂起和继续执行等进行举例说明。
2017-12-02 11:30:43 305
原创 初识Java并发
前言程序的并发现象在我们日常编程中是常见的,但对并发的背后却很少深究。于是,笔者通过实践和阅读《Java并发编程艺术》、《实战Java高并发程序设计》、《七周七并发》等书籍来弥补自身并发这片空白,争取做到知其然知其所以然。 笔者计划将自己的学习笔记记录下来,整体规划是,并发中常用的名词概念(先得知道定义——what)->Java并发编程的基础(怎么使用Java并发编程——how)->并发机制底层实
2017-11-18 15:30:00 312
原创 设计模式精髓篇之行为型
行为型模式主要是对对象的行为进行设计,解决对象间的联系问题也可以理解为解决对象与对象间的通信。续前3篇设计模式初篇 设计模式精髓篇之创建型 设计模式精髓篇之结构型
2017-11-05 12:15:39 412
原创 设计模式对比篇
对比篇关于设计模式,有时你会发现有些设计模式的类图是有些相似的但也不完全相同,但是功能却不相同,这时我便常用对比的方式让自己更熟练的掌握这些
2017-11-04 10:06:18 467
原创 设计模式精髓篇之结构型
结构型设计模式主要是对类的结构和类与类之间的关系进行的设计,采用类间或者接口与类间的关联组合或依赖来实现为对象添加新的功能。
2017-10-21 11:18:30 443
网络爬虫技术分享
2019-01-09
HBuilder HTML5+ API帮助文档.chm
2016-03-11
httpclient全部jar包
2015-09-16
安卓HttpClient+Jsoup+Httpwatch模拟登陆网站
2015-10-06
Base64在java平台和android平台上加密的结果为什么不一样?
2015-09-19
TA创建的收藏夹 TA关注的收藏夹
TA关注的人