机器学习
Mr_不想起床
努力工作,环游世界!
展开
-
NLP合集:教程/实体抽取/关系(三元组)抽取/文本分类/知识图谱/Bert系列/相似度判定/机器人问答/文本工具/竞赛方案精选/面试指南/NLP各类任务数据集等集合
Cool-NLPCV (持续更新中…)Some Cool NLP and CV Repositories and SolutionsCool-NLP | Cool-CV旨在收集NLP中常见任务的开源解决方案、数据集、工具、学习资料等,方便学习或快速查找。在此分享出来,供大家参考。欢迎积极分享并Star,谢谢!会持续不定时更新,也欢迎加入共同分享。1、机器学习&深度学习入门精选Python-100天从新手到大师斯坦福大学2014(吴恩达)机器学习教程中文笔记《统计学习方法》第二版的代原创 2020-12-24 11:28:24 · 5196 阅读 · 4 评论 -
为什么要做特征归一化/标准化
Feature scaling,常见的提法有“特征归一化”、“标准化”,是数据预处理中的重要技术,有时甚至决定了算法能不能work以及work得好不好。谈到feature scaling的必要性,最常用的2个例子可能是: 特征间的单位(尺度)可能不同,比如身高和体重,比如摄氏度和华氏度,比如房屋面积和房间数,一个特征的变化范围可能是[1000, 10000],另一个特征的变化范围可能是[−0.1,0.2],在进行距离有关的计算时,单位的不同会导致计算结果的不同,尺度大的特征会起决定性作用,而尺度小的特转载 2020-11-13 15:39:09 · 491 阅读 · 0 评论 -
图像、文本、机器学习顶会
1.CVPR国际计算机视觉与模式识别会议(CVPR)是IEEE一年一度的学术性会议,会议的主要内容是计算机视觉与模式识别技术。CVPR是世界顶级的计算机视觉会议(三大顶会之一,另外两个是ICCV和ECCV),近年来每年有约1500名参加者,收录的论文数量一般300篇左右。本会议每年都会有固定的研讨主题,而每一年都会有公司赞助该会议并获得在会场展示的机会。2.ECCVECCV的全称是European Conference on Computer Vision(欧洲计算机视觉国际会议) ,两年一次.原创 2020-10-24 15:02:30 · 924 阅读 · 0 评论 -
LightGBM操作指南
转自:https://mp.weixin.qq.com/s/9gEfkiZyZkoIgwRCYISQgQLightGBM是基于XGBoost的一款可以快速并行的树模型框架,内部集成了多种集成学习思路,在代码实现上对XGBoost的节点划分进行了改进,内存占用更低训练速度更快。LightGBM官网:https://lightgbm.readthedocs.io/en/latest/参数介绍:https://lightgbm.readthedocs.io/en/latest/Parameters.h转载 2020-10-20 10:15:57 · 1319 阅读 · 0 评论 -
Python速查表(神经网络、机器学习、可视化等)
看见几个不错的速查表,分享出来:Python基础速查Numpy速查Pandas速查Scipy速查Matplotlib速查Sickit-learn速查Spark速查Keras速查TensorFlow速查数据结构线性代数原创 2020-09-16 09:27:21 · 286 阅读 · 0 评论 -
常用Matplotlib图的Python代码
分享给大家25个Matplotlib图的汇总,在数据分析和可视化中非常有用,文章较长,可以马起来慢慢练手。#!pipinstallbrewer2mplimportnumpyasnpimportpandasaspdimportmatplotlibasmplimportmatplotlib.pyplotaspltimportseabornassnsimportwarnings;warnings.filterwarnings(action='once')...转载 2020-05-29 17:17:46 · 324 阅读 · 0 评论 -
一文搞懂交叉熵
交叉熵在loss函数中使用的理解交叉熵(cross entropy)是深度学习中常用的一个概念,一般用来求目标与预测值之间的差距。以前做一些分类问题的时候,没有过多的注意,直接调用现成的库,用起来也比较方便。最近在做文本任务时,需要基于交叉熵自定义一些复杂的损失函数,发现自己对交叉熵的理解有些模糊,不够深入。参考了该博文,复制记录,在原文中做了少量更改。信息论交叉熵是信息论中的一个概念...转载 2020-05-08 14:55:00 · 1037 阅读 · 0 评论 -
如何选择回归损失:MAE还是MSE?
在做回归建模相关任务时,最常用评价指标是MAE、MSE、RMSE中的一个或多个,但如何根据自己的具体任务场景(数据分布)选择更合适的模型评估指标指标呢?这里我们就要需要弄明白MAE与MSE之间到底有什么不同。1、什么是MAEMAE(mean absolute error),即平均绝对值误差,也可以看做L1损失,是一种用于回归模型的常用损失函数。MAE是目标值和预测值之差的绝对值之和。其只衡...原创 2020-04-28 13:13:51 · 25650 阅读 · 2 评论 -
机器学习模型持续部署(基于Flask, Docker, Jenkins 和 Kubernets )
本文主要介绍部署机器学习模型的一种自动化方式,如题所示,通过Flask,Docker,Jenkins和Kubernets实现。基本原理就是通过 Flask 提供RESTful API接收客户端的 predict 请求,然后将这个服务打包成一个 docker image 便于部署和迁移,当代码或模型更新时通过 Jenkins 触发自动构建新的 docker image,而通过 kube...转载 2020-03-08 20:50:47 · 2053 阅读 · 0 评论 -
NLP相关任务合集代码及解决思路
NLP相关任务合集(持续更新中…)Introduction本项目旨在收集一些NLP相关的任务实现示例,为后续相关任务实现提供一些参考,仅对NLP入门者有一定的参考意义。一些竞赛的解决方案文本相似度匹配关系抽取(三元组抽取) relation_extract基于bert关系抽取基于dgcnn(膨胀门卷积)关系抽取文本分类 text_classifier...原创 2019-12-03 15:18:42 · 410 阅读 · 0 评论 -
【回顾】GBDT、XGBoost、LightGBM原理及对比
本文主要简要的比较了常用的boosting算法的一些区别,从AdaBoost到LightGBM,包括AdaBoost,GBDT,XGBoost,LightGBM四个模型的简单介绍,一步一步从原理到优化对比。AdaBoost概述Adaboost(Adaptive Boosting,自适应增强)算法是一种提升方法,将多个弱分类器,组合成强分类器。它的自适应在于:前一个弱分类器分...原创 2019-10-18 10:10:35 · 906 阅读 · 0 评论 -
深度神经网络中concatenate()和add层的不同
深度神经网络中,经常会遇到需要把张量结合在一起的情况,比如Inception、DenseNet、Resnet等concatenate操作是网络结构设计中很重要的一种操作,经常用于将特征联合,多个卷积特征提取框架提取的特征融合或者是将输出层的信息进行融合,而add层更像是信息之间的叠加。Resnet是做值的叠加,通道数是不变的,DenseNet是做通道的合并。你可以这么理解,add是描述图像...原创 2019-04-11 20:22:36 · 4447 阅读 · 3 评论 -
Keras 学习笔记1
之前学习使用tensorflow的时候,多多少少也用过些keras的模型,但一直未去单独的了解学习过,打算快速学习一边keras的基本用法,以便后续练习模型使用1、Keras的设计原则是用户友好:Keras是为人类而不是天顶星人设计的API。用户的使用体验始终是我们考虑的首要和中心内容。Keras遵循减少认知困难的最佳实践:Keras提供一致而简洁的API, 能够极大减少一般应用下用户的工作量...原创 2018-09-22 16:09:28 · 323 阅读 · 0 评论 -
Numpy的常用语法
#数组创建a = np.array([[1,2],[3,4],[5,6]])#创建3行2列二维数组。print(a)array([[1, 2], [3, 4], [5, 6]])a = np.zeros(6)#创建长度为6的,元素都是0一维数组a = np.zeros((2,3))#创建3行2列,元素都是0的二维数组a = np.ones((2,3))#创建...原创 2018-09-29 09:38:40 · 474 阅读 · 0 评论 -
Centos 6.8 Python3.6 (Pip install dlib) 安装Dlib采坑记
因为做人脸识别这块,需要用到Dlib库,模型环境搭在Centos6.8当中,GUN原始版本为4.4.71、升级gcc版本,尽量保证 /usr/bin/gcc, /usr/bin/g++, /usr/bin/c++, /usr/local/bin/gcc, /usr/local/bin/g++, /usr/local/bin/c++都为升级后的版本(不然有非常多的坑,我后面安装一直卡着...原创 2018-11-22 11:05:58 · 1310 阅读 · 0 评论 -
MLflow安装后UI访问问题
问题:在虚拟机centos环境中安装了mlflow,代码能正常运行,但在windows上一直访问不了UI http://虚拟机ip:5000后面浏览https://github.com/mlflow/mlflow/issues受到启发,自己在同一台虚拟机上启动了一个tracking server解决了问题。环境:MLflow安装环境:centos6.8 Anaconda3-5.2...原创 2018-11-17 18:04:44 · 3310 阅读 · 2 评论 -
Rasa聊天机器人(二):训练及构建
本文只要介绍了基于Rasa Core及Rasa NLU构建聊天机器人。代码详见:https://github.com/xiaoxiong74/rasa_chatbotIntroduction这个聊天机器人demo是用开源NLU框架rasa-nlu完成意图识别与实体识别,用rasa-core完成对话管理和与对话生成。本demo完成的对话主要有:1: 办理套餐、查询话费和流量(会话场...原创 2019-03-02 15:02:12 · 8169 阅读 · 11 评论 -
Tensorflow 报错illegal instruction (core dumped) 解决版本
很多童鞋安装tensorflow 1.5以上版本后,在导入tensorflow的时候报如下错:>>> import tensorflow as tfIllegal instruction (core dumped)网上找了大多数解决办法都是将版本回退到1.5,但不可能一直用旧版本,这个问题也解决了很久。解释的原因也很多,当然主要原因的电脑配置环境,比如没有SSE4....原创 2019-03-07 15:22:45 · 5199 阅读 · 8 评论 -
Rasa聊天机器人(一):简介及环境搭建
基本概念Rasa 是一个基于机器学习实现多轮对话的开源机器人框架,其中包含两个模块Rasa_core:github与Rasa_nlu:githubRasa-Nlu 是自然语言理解模型集合,主要包括意图识别,实体识别,它会把用户的输入转换为结构化的数据Rasa-Core 是一个对话管理的平台,它的工作是决定接下来机器该返回什么内容给用户,即实现与用户的交互逻辑开发语言:Python模型...原创 2019-03-07 15:40:58 · 11179 阅读 · 9 评论 -
今日头条推荐算法详解
源 | AI研习社 编辑 | 昱良内容较长点击阅读原文即可下载今日头条资深算法架构师曹欢欢:本次分享将主要介绍今日头条推荐系统概览以及内容分析、用户标签、评估分析,内容安全等原理。一、系统概览推荐系统,如果用形式化的方式去描述实际...转载 2018-06-14 18:03:54 · 4773 阅读 · 0 评论