自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

平原的博客

专注人工智能100年(http://www.nlpport.com)

原创 超好用Python小功能(持续更新中)
原力计划

1、把数字转为千位数值类型 str2 = '-1234567898.71' result = "{:,}".format(float(str2)) print(result) 结果 -1,234,567,898.71 2、找出字...

2020-04-09 22:32:49 325 0

原创 实现windows 和linux环境 word转pdf功能

本文章实现不同环境,word文档转pdf文档 文章目录一、linux环境1、环境安装2、测试安装是否成功:问题汇总:1、linux系统缺少中文字体导致2、禁用libreoffice屏幕显示(不一定管用)二、windows环境1、环境安装三、windows和linux集成代码 一、linux环境 1...

2020-06-10 09:40:40 112 0

原创 上大学前必读的书单

一、文学类 二、历史类 三、哲学类 四、思维类 五、科学类 六、经济类 内容来自:吴军的《谷歌方法论》 在昨天写给你的来信中,向你推荐了一些美国中小学生的书单。今天把我在《硅谷来信》中列的中学生书单分享给你。 即使你不是这个年龄阶段的人,也希望它们对你能够有所启发,没有读过的书...

2020-04-23 17:58:17 1443 0

原创 利用百度AI接口评估语句通顺度

如何判断一句话是否通顺,通顺程度如何,这里用到了百度AI的DNN语言模型接口 例如:“今天成立了中华人民共和国”,对此句子分析 1、获取百度的token client_id:是主持百度AI后的id client_secret:相当于秘钥 获取token可以访问:https://jingyan.ba...

2020-04-23 16:55:24 1281 1

原创 python 将多个表格合并成一个表格中的多个sheet

本篇介绍,把多个excel表分别写到一个表格对应的多个sheet里面,每个表的名称就是sheet的名字 import os import pandas as pd dir = './table_dir' # 获取目录下所有的表 origin_file_list = os.li...

2020-04-02 09:06:52 275 0

转载 如何通俗地讲解 viterbi 算法?

原文链接 一、通俗地讲解 viterbi 算法 这篇回答你绝对看得懂!如下图,假如你从S和E之间找一条最短的路径,除了遍历完所有路径,还有什么更好的方法? 答案:viterbi (维特比)算法。 过程非常简单: 为了找出S到E之间的最短路径,我们先从S开始从左到右一列一列地来看。 首先起点是S,从...

2020-02-07 14:59:54 164 0

原创 python 合并两个txt文件

合并两个txt文件 合并两个文件,其实只要把文件2的内容追加到文件1中就可以了 例如,现有两个文件,file1和file2: file1.txt: 123 456 file2.txt: abc def 代码如下: file1 = 'file1.txt' file2 = ...

2019-11-21 21:16:25 927 0

转载 常见30种NLP任务的练手项目

1.分词 Word Segmentation chqiwang/convseg ,基于CNN做中文分词,提供数据和代码。 2.词预测 Word Prediction Kyubyong/word_prediction ,基于CNN做词预测,提供数据和代码。 3. 文本蕴涵 Textual Entai...

2019-09-21 14:33:47 305 0

转载 Keras同时用多张显卡训练网络

文章目录References.0. 误区1. 目的2. 实现2.1 设计一个类2.2 调用非常简洁 转自:https://www.jianshu.com/p/db0ba022936f References. 官方文档:multi_gpu_model 以及Google 0. 误区 目前Keras是支...

2019-05-17 10:51:07 737 0

原创 面试算法简述

文章目录一、机器学习生成模式和判别模式的区别:感知机:K-means:k近邻:朴素贝叶斯:极大似然估计:逻辑回归(LR):L1和L2的区别FP(FP-growth)关联算法支持向量机(SVM):决策树:bagging随机森林:boosting梯度提升和梯度下降的区别:GBDTXGBoost:GBD...

2019-05-08 21:16:42 589 0

转载 极大似然估计详解

https://blog.csdn.net/zengxiantao1994/article/details/72787849

2019-03-19 11:03:54 129 0

转载 Frequent Pattern 挖掘之二(FP Growth算法)

文章目录FP树构造FP树的挖掘 每一步都很详尽,推荐看 FP树构造 FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。为了达到这样的效果,它采用了一种简洁的数据结构,叫做frequent-pattern ...

2019-03-08 15:51:44 199 0

原创 NLP基础算法总结(待续)

NLP基础算法总结一、词法分析1、分词二、句法分析三、语义分析四、文档分析五、其他 nlp(Natural Language Processing) 简称:自然语言处理 以下为自然语言处理用到的基础算法,包括词法分析、句法分析、语义分析、文档分析、其他 一、词法分析 词法分析包括分词、词性标注、实...

2019-02-28 13:39:03 2105 1

原创 解决centos配置的eth0不生效问题

自己在虚拟机中配置的eth0,重启或者迁移镜像之后,静态ip不生效,查看ifconfig,结果生成了新的eth1。 第一步: $ vim /etc/udev/rules.d/70-persistent-net.rules 复制里面"00:0c:29:f7:80:12&...

2019-01-12 16:34:09 2125 0

原创 jupyter notebook 恢复误删单元格或者历史代码

1、先说恢复误删单元格的操作 前提不要关闭notebook窗口。 解决方法:先按Esc键进入命令模式,在按z键就会恢复。记住不要按Ctrl+z(这个只限没删除单元格的常规操作) 命令模式和编辑模式识别: 命令模式:左侧为蓝色。 编辑模式:左侧为绿色,可以直接写入内容。 2、恢复原来写过的代码 ...

2018-12-03 10:45:32 7349 3

原创 fp_growth(Frequent Pattern tree)关联算法

注意:此方法笔者已经试过,计算关联词,在跑大批量数据模型的时候,很消耗内存。打个比方,如果你的数据集足够大,内存全部能吃完。具体一点,每个子列表有10个词,共500个子列表,16个G不够用的,可以想象上万条以上是什么情况。 改进的方法: 1、upgraded FP-growsth, UFP 算法 ...

2018-11-16 10:44:03 312 0

原创 wordcloud解决‘'list' object has no attribute 'items'’

由于fit_words需要传入字典格式,原来传入列表会报错 from os import path from wordcloud import WordCloud from matplotlib import pyplot as plt # 定义为列表会报错 frequencies = [(u&...

2018-11-12 20:10:56 6247 0

原创 pandas apply应用并行进程,多核加快运行速度

前言: 在进行数据处理的时候,我们经常会用到 pandas 。但是 pandas 本身好像并没有提供多进程的机制。本文将介绍如何来自己实现 pandas (apply 函数)的多进程执行。其中,我们主要借助 joblib 库,这个库为python 提供了一个非常简洁方便的多进程实现方法。 注意:本...

2018-11-07 10:11:48 11742 2

原创 解决pandas合并某一列的文本内容

最近在做文本聚类时遇到,需要把某列的文本内容统一合并,其实很简单。 上代码 import pandas as pd df = pd.DataFrame({'text':['今天天气不错,适合出去玩。', '最近在上海举办了中国进...

2018-11-06 16:44:27 2673 0

原创 协同过滤之基于用户-物品矩阵推荐系统(待续)

先上图,第一个是基于物品协同过滤推荐,第二个是基于用户的协同过滤推荐 这个两个步骤差不多。先说基于物品的协同过滤,原理就是上面这张图,下面说步骤 一、基于物品的协同过滤 步骤: 1、根据用户对物品的评分构建用户-物品矩阵 2、创建一个n*n的物品相似度矩阵 在产品-产品协同...

2018-10-17 15:02:16 2926 1

原创 GBDT和XGBoost区别-结论:

GBDT和XGBoost区别(百面机器学习): 1、GBDT是机器学习算法,XGBoost是该算法的工程实现 2、在使用CART作为基分类器时,XGBoost显式的加入正则项来控制模型的复杂度,有利于防止过拟合,从而提高模型的泛化能力 3、GBDT在模型训练时只使用了代价函数的一阶导数信息,...

2018-09-14 18:10:04 333 0

原创 UserCF和ItemCF的综合比较(待续)

UserCF是推荐系统领域较为古老的算法, 1992年就已经在电子邮件的个性化推荐系统Tapestry中得到了应用, 1994年被GroupLens①用来实现新闻的个性化推荐,后来被著名的文章分享网站Digg用来给用户推荐个性化的网络文章。 ItemCF则是相对比较新的算法,在著名的电子商务网站亚...

2018-09-08 17:55:19 1133 0

原创 偏差(bias)和方差(variance)区别:

偏差(bias)和方差(variance)区别: 偏差指的是算法的期望预测与真实预测之间的偏差程度, 反应了模型本身的 拟合能力; 方差度量了同等大小的训练集的变动导致学习性能的变化, 刻画了数据扰动 所导致的影响。 当模型越复杂时, 拟合的程度就越高, 模型的训练偏差就越小。 但此时如...

2018-09-05 20:23:15 1387 0

转载 关于Deep learning和NLP实战应用项目

karpathy/char-rnn · GitHub :一个基于RNN的文本生成器。可以自动生成莎士比亚的剧本或者shell代码。 https://github.com/karpathy/char-rnn phunterlau/wangfeng-rnn · GitHub : 基于char-rn...

2018-08-25 16:03:58 4973 0

原创 深度学习之seq2seq简单介绍(待续)

Seq2Seq模型是RNN最重要的一个变种:N vs M(输入与输出序列长度不同)。 这种结构又叫Encoder-Decoder模型。 原始的N vs N RNN要求序列等长,然而我们遇到的大部分问题序列都是不等长的,如机器翻译中,源语言和目标语言的句子往往并没有相同的长度。 为此,Enco...

2018-08-23 20:11:27 459 0

原创 自然语言处理之word2vec原理词向量生成

链接来自:https://www.zhihu.com/question/44832436/answer/266068967 前言 word2vec是如何得到词向量的?这个问题比较大。从头开始讲的话,首先有了文本语料库,你需要对语料库进行预处理,这个处理流程与你的语料库种类以及个人目的有关,...

2018-08-23 19:57:19 2216 1

原创 深度学习之反向传播推导

反向传播算法(Backpropagation)是目前用来训练人工神经网络(Artificial Neural Network,ANN)的最常用且最有效的算法。其主要思想是: 将训练集数据输入到ANN的输入层, 经过隐藏层, 最后达到输出层并 输出结果, 这是ANN的前向传播过程; 由于ANN的...

2018-08-16 20:34:23 1318 1

原创 机器学习之模型评估方法总结

一、分类模型评估 1、混淆矩阵(confusion matrix) 2、ROC 3、AUC 二、回归模型评估 1、SSE(和方差) 2、MSE(均方差) 3、RMSE(均方根、标准差) 4、R-Squared(确定系数) 5、MAE(平均绝对误差) 6、交叉验证(Cross-Validatio...

2018-08-13 10:50:23 999 0

原创 机器学习之GBDT算法(待续)

一、GBDT 概念 二、GBDT的负梯度拟合 分类回归树CART 负梯度拟合 三、GBDT回归算法 四、GBDT分类算法 1、 二元GBDT分类算法 2、 多元GBDT分类算法 五、 GBDT常用损失函数 六、 GBDT的正则化 七、 GBDT小结  一、GBDT...

2018-08-11 16:11:12 941 0

原创 机器学习之降维方法:PCA和LDA的区别

一、PCA(主成分分析) 二、LDA(线性判别分析) 1、二类LDA原理 2、多类LDA原理 3、LDA算法流程 4、LDA算法小结 三、 LDA 和 PCA区别 一、PCA(主成分分析) PCA是一种无监督的数据降维方法 降维是对数据高维度特征的一种预处理方法。降维是将...

2018-08-10 20:33:20 3549 0

原创 机器学习之多种算法优缺点总结及优化方法

一、无监督算法: 1、聚类算法:Kmeans 2、关联规则算法:Apriori 二、有监督算法 1、分类算法 决策树(Decision Tree) 支持向量机(SVM) K近邻(kNN,k-NearestNeighbor) 朴素贝叶斯 逻辑回归 2、回归算法 线性回归 多项式回归 3、...

2018-08-08 19:34:45 1525 0

原创 机器学习之随机森林(RF)详解

一、bagging算法 1、简介 2. bagging算法流程 二、随机森林 1、简介 2、CART分类树的生成 3、总结 常用集成学习包括Bagging ,Boosting, Stacking三种。见https://blog.csdn.net/sinat_30353259/...

2018-08-04 13:08:20 1211 0

原创 机器学习之各种熵的总结

一、什么是熵 物理学上,熵 Entropy 是“混乱” 程度的量度。 系统越有序,熵值越低;系统越混乱或者分散,熵值越高 信息理论: 1、当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。这是从信息的完整性上进行的描述。 2、当数据量一致时,系统越有序,熵值越低...

2018-07-21 20:58:10 405 0

原创 机器学习之逻辑回归

一、基本概念 1、什么是逻辑回归 2、逻辑回归损失函数推导 3、梯度下降法求解 二、对比分析 1、逻辑回归的优缺点 2、与线性回归的区别 逻辑回归:解决分类问题 一、基本概念 1、什么是逻辑回归 逻辑回归在某些书中也被称为对数几率回归,明明被叫做回归,...

2018-07-20 20:52:41 286 0

原创 机器学习之常见聚类方法

一、kmeans 1、算法流程 2、使用距离 3、k值的选择 4、算法优化 5、K-means 附加问题 二、层次聚类 1、流程: 2、层次聚类方法 三、基于密度(DBSCAN) 1、定义 2、流程 3、K-means与DBSCAN的区别 一、kme...

2018-07-17 18:05:34 545 0

转载 集成学习之Adaboost算法原理

内容来自http://www.360doc.com/content/14/1109/12/20290918_423780183.shtml 一、Adaboost的原理 1.1 Adaboost是什么 AdaBoost,是英文”Adaptive Boosting”(自适应增强)的缩写,由Y...

2018-07-16 20:59:34 191 0

原创 机器学习之XGBoost集成算法、牛顿法

一、XGBoost算法 基本构成 boosted tree作为有监督学习算法有几个重要部分:模型、参数、目标函数、优化算法 模型 模型指给定输入x如何去预测输出y 参数 参数指我们需要学习的东西,在线性模型中,参数指我们的线性系数w 目标函数 目标函数:损失 + 正则,...

2018-07-15 15:15:59 591 0

转载 泰勒级数详解

泰勒公式一句话描述:就是用多项式函数去逼近光滑函数。 先来感受一下: 定理: 设 n 是一个正整数。如果定义在一个包含 a 的区间上的函数 f 在 a 点处 n+1 次可导,那么对于这个区间上的任意 x,都有 f(x)=f(a)+f′1!(x−a)+f(2)(a)2!(x−a)2+.....

2018-07-15 13:40:17 7389 0

原创 机器学习之凸优化、贝叶斯网络、奇异值分解(SVD)

一、凸优化 1、概念 1.1仿射集定义 1.2 凸集 1.3 锥定义 2、凸优化 二、贝叶斯网络 通过贝叶斯网络判定的条件独立 (1)形式1:head-to-head (2) 形式2:tail-to-tail (3) 形式3:head-to-tail 三、SVD奇异值分解 ...

2018-07-14 11:47:55 489 0

转载 机器学习之集成学习

一、集成算法(Ensemble Algorithms)综述 二、关于基础分类器结果整合的主要方式 1. 对于回归预测(数值预测) 2. 对于分类(类别预测) 3、Bootstrap算法 (1)、基于Bootstrap 的Bagging 算法 (2)基于Bagging的Random Fores...

2018-07-13 17:11:21 314 0

提示
确定要删除当前文章?
取消 删除