自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 Word2vec原理及其Python实现

目录一、为什么需要Word Embedding二、Word2vec原理1、CBOW模型2、Skip-gram模型三、行业上已有的预训练词向量四、用Python训练自己的Word2vec词向量一、为什么需要Word Embedding在NLP(自然语言处理)里面,最细粒度的是词语,词语组成句子,句子再组成段落、篇章、文档。所以要处理 NLP 的问题,首先就要拿词语开刀...

2018-11-16 00:00:53 11556 4

原创 Mac下载安装nlp处理工具pyltp及其python实现

目录一、操作环境二、编译安装pyltp三、填充pyltp中的空ltp文件夹四、python处理NLP问题还需调用模型文件pyltp 是哈工大出品的NLP处理工具,是 LTP 的 Python 封装。该工具提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能,关于各个模块任务的介绍可以查阅 这里 的介绍。一、操作环境本文章是在我经历了许多心塞的报错后,总结...

2018-11-05 01:23:05 3130 4

原创 Python标准库详解——turtle、random、time

目录前言一、turtle库1、一个小例子2、turtle绘图的基础知识1. 画布(canvas)2. 画笔二、random库1、随机浮点数2、随机整数3、随机字符4、随机洗牌5、另:numpy里的random方法三、time库1、获取当前时间戳2、获取当前时间3、获取格式化的时间前言公众号要发一个python标准库介绍,我先记...

2018-10-23 19:10:35 3971

原创 逻辑回归——机器学习(图解+理论+python实现)

目录前言一、Sigmoid函数(核心)二、确定最佳回归系数三、思路总结四、用Python实现逻辑回归算法前言逻辑回归虽然带有回归两字,但实际上是做分类任务的,并且是一个经典的二分类算法。在我们选择使用机器学习算法的时候,通常呢,首先考虑的就是逻辑回归算法,再去考虑另外复杂的算法,也就是说我们能用简单的还是用简单的算法。在机器学习中,算法不是越复杂越好,而是要简单、高效、...

2018-08-30 22:40:32 5799 2

原创 Mac下载Mysql管理界面Sequel pro及其使用方法

一、Sequel pro的安装Mac OS X 原生的应用工具Sequel Pro是一款管理 Mysql 的工具,界面简洁易用,你可以一次性连接多个数据库,允许快速访问那些你经常需要访问的数据库。首先去官网下载Sequel pro的安装包:https://sequelpro.com/download,点击DOWNLOAD,慢慢等着,下载完成之后解压。一般来说会有一个安装流程,但是这...

2018-08-14 20:37:17 49356 6

原创 LightGBM——提升机器算法(图解+理论+安装方法+python代码)

前言LightGBM是个快速的,分布式的,高性能的基于决策树算法的梯度提升框架。可用于排序,分类,回归以及很多其他的机器学习任务中。在竞赛题中,我们知道XGBoost算法非常热门,它是一种优秀的拉动框架,但是在使用过程中,其训练耗时很长,内存占用比较大。在2017年年1月微软在GitHub的上开源了一个新的升压工具--LightGBM。在不降低准确率的前提下,速度提升了10倍左右,占用内存...

2018-08-04 21:41:12 76391 18

原创 DBSCAN聚类算法——机器学习(理论+图解+python代码)

一、前言二、DBSCAN聚类算法三、参数选择四、DBSCAN算法迭代可视化展示五、常用的评估方法:轮廓系数六、用Python实现DBSCAN聚类算法一、前言去年学聚类算法的R语言的时候,有层次聚类、系统聚类、K-means聚类、K中心聚类,最后呢,被DBSCAN聚类算法迷上了,为什么呢,首先它可以发现任何形状的簇,其次我认为它的理论也是比较简单易懂的。今年在python...

2018-07-26 11:21:39 91595 29

原创 MacOS安装社区版Neo4j(图数据库)

知识图谱最近大热,Neo4j图数据库在这方面起到了很大的作用,也挺有意思的,安装它的时候走了不少弯路,在此分享Neo4j的安装过程。Neo4j安装地址:https://neo4j.com/download-center/   ,我下载的是3.3.6的,都可以,然后就等着吧。 下载完成后解压我嫌它名字太长,改成了neo4j,打开终端,进入neo4j,再进入bin,输入./ne...

2018-07-19 22:31:40 10481 9

原创 XGBoost——机器学习(理论+图解+安装方法+python代码)

目录一、集成算法思想二、XGBoost基本思想三、MacOS安装XGBoost四、用python实现XGBoost算法在竞赛题中经常会用到XGBoost算法,用这个算法通常会使我们模型的准确率有一个较大的提升。既然它效果这么好,那么它从头到尾做了一件什么事呢?以及它是怎么样去做的呢?我们先来直观的理解一下什么是XGBoost。XGBoost算法是和决策树算法联系到一起的。决...

2018-07-13 15:25:32 68286 18

原创 sklearn中的GridSearchCV()!python中模型里各种参数取值有它方便多了

最近看机器学习的教学视频,老师反复提到了一个函数GridSearchCV()。举个例子,在python中用一个模型的时候,可能会涉及一些需要人为指定的参数,比如随机森林模型需要指定min_samples_split=?、n_estimators=?,在我们缺乏先验知识的时候,我们是不知道取什么样的值才是合适的,这个时候GridSearchCV()函数就派上了用场。#简单的例子来看看GridSear...

2018-07-11 15:27:18 10610

原创 追求逻辑——概念是人们创造的,解释是人们观察到的

今天美国宾夕法尼亚州立大学一位教授来我校授课,授课的主题是《经济数学建模与神经网络和深度学习》让我又回忆起之前看到的一本书概念是人们创造的,解释是人们观察到的。找到一个合适的理论,验证它,成了,这就是一个真理。这种思想的出发点,不是追究事件是什么,而是创造一种观点来验证它,逻辑的走向很奇怪。今天美国宾夕法尼亚大学教授的授课让我又回忆起之前看到的一本书。...

2018-07-10 17:48:21 239

原创 决策树算法——机器学习(理论+图解+python代码)

前言暑假打算吃透一本书叫《机器学习》,大家也亲切的叫它西瓜书,看完决策树这部分想做做总结,虽然几年前对决策树的知识就有点印象,但是我发现现在又有了很多新的收获。一、基本流程二、划分选择三、剪枝处理四、连续与缺失值五、多变量决策树六、房价数据集的决策树算法python实现 一、基本流程决策树(decision tree)是一类常见的机器学习算法,它是基于树结构...

2018-07-09 22:01:34 27662 15

原创 深度学习之RNN循环神经网络(理论+图解+Python代码部分)

目录前言一、普通神经网络二、循环神经网络1.前向传播2.反向传播算法BPTT3.自然语言处理之RNN 4.梯度问题4.1梯度爆炸4.2梯度消失:5.Keras建立RNN模型进行IMDb情感分析的Python代码前言前段时间实验室人手一本《Deep Learning》,本文章结合这本圣经和博客上各类知识以及我自己的理解和实践,针对RNN循环神经网络作出...

2018-06-11 21:55:55 19811 2

转载 User-Agent的变迁——浏览器大战之前世今生

   一切的开始还得从NCSA Mosaic说起,Mosaic是由国家超级计算机应用中心开发的一款浏览器。称作 “NCSA_Mosaic/2.0(Windows 3.1)”,Mosaic支持在文本中展示图片,因此浏览器变的非常有趣了。      然而很快就出现了一个全新的浏览器,那就是著名的Mozilla,它被称为“Mosaic杀手”,然而Mosaic显得不高兴了,于是后来Mozilla更名为Ne...

2018-05-17 13:02:23 191

转载 准确率(Precision)、召回率(Recall)、F值(F-Measure)的简要说明

      一般来说,precision是检索出来的条目(文档、网页)有多少是准确的;recall就是所有准确的条目有多少被检索出来了;      不妨举这样一个例子:某池塘有1400条鲤鱼,300只虾,300只鳖。现在以捕鲤鱼为目的。撒一大网,逮着了700条鲤鱼,200只虾,100只鳖。那么,这些指标分别如下:      正确率 = 700 / (700 + 200 + 100) = 70%  ...

2018-05-15 22:15:17 2037

转载 深度学习的57个术语

激活函数(Activation Function) 为了让神经网络能够学习复杂的决策边界(decision boundary),我们在其一些层应用一个非线性激活函数。最常用的函数包括  sigmoid、tanh、ReLU(Rectified Linear Unit 线性修正单元) 以及这些函数的变体。 Adadelta Adadelta 是一个基于梯度下降的学习算法,可以随时间调整适应每个参数的学...

2018-05-15 20:54:41 263

转载 【TensorFlow】tf.nn.softmax_cross_entropy_with_logits的用法

一、tf.nn.softmax_cross_entropy_with_logits:     在计算loss的时候,最常见的一句话就是tf.nn.softmax_cross_entropy_with_logits,那么它到底是怎么做的呢?首先明确一点,loss是代价值,也就是我们要最小化的值tf.nn.softmax_cross_entropy_with_logits(logits, labels...

2018-05-15 20:36:52 108

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除