人工智能
J-JunLiang
一个热爱挖掘的数据从业者,勤学好问、动手达人,公仔厂的一位码农,期待与大家一起交流探讨机器学习相关内容~
展开
-
特征工程系列:自动化特征构造
特征工程系列:自动化特征构造原创:JunLiang木东居士今天0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。那特征工程是什么?特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。特征工程又包含了 D...原创 2019-12-09 19:43:55 · 1477 阅读 · 0 评论 -
特征工程系列:空间特征构造以及文本特征构造
原创:JunLiang木东居士特征工程系列:空间特征构造以及文本特征构造本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应...原创 2019-12-01 17:14:11 · 1402 阅读 · 0 评论 -
特征工程系列:时间特征构造以及时间序列特征构造
特征工程系列:时间特征构造以及时间序列特征构造原创:JunLiang木东居士0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。那特征工程是什么?特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。特征工...原创 2019-11-16 17:22:38 · 5585 阅读 · 5 评论 -
评分卡模型中的IV和WOE详解
1.IV的用途IV的全称是InformationValue,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?挑...转载 2019-11-08 11:27:27 · 1518 阅读 · 0 评论 -
特征工程系列:GBDT特征构造以及聚类特征构造
特征工程系列:GBDT特征构造以及聚类特征构造原创:JunLiang木东居士4天前特征工程系列:GBDT特征构造以及聚类特征构造本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。...原创 2019-10-29 14:26:03 · 1065 阅读 · 0 评论 -
特征工程系列:笛卡尔乘积特征构造以及遗传编程特征构造
原创:JunLiang木东居士1周前特征工程系列:笛卡尔乘积特征构造以及遗传编程特征构造本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要...原创 2019-10-21 13:14:32 · 2115 阅读 · 0 评论 -
特征工程系列:聚合特征构造以及转换特征构造
原创:JunLiang木东居士1周前特征工程系列:聚合特征构造以及转换特征构造本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在...原创 2019-10-21 13:12:51 · 1560 阅读 · 0 评论 -
聚类方法 学习总结
1.重点归纳1)聚类的核心概念是相似度(similarity)或距离(distance),有多种相似度或距离的定义。因为相似度直接影响聚类的结果,所以其选择是聚类的根本问题。(1)闵可夫斯基距离(Minkowski distince),p=2时为欧氏距离,p=1时为曼哈顿距离。(2)马哈拉诺比斯距离(马氏距离)(3)相关系数(4)余弦相似度2)类与类之间的距离(1...原创 2019-07-03 16:11:21 · 3643 阅读 · 0 评论 -
金融用户画像项目总结
金融用户画像项目总结目录理财用户画像 导读 I.用户画像概念 II.用户画像目的 III.用户画像应用简介 IV.用户画像体系 i.标签概述 ii.标签处理过程 iii.标签体系 V.用户画像构建 i.知识点总结 ii.用户画像构建流程 iii.用户画像开发流程 VI.产品化--DMP系统 i.DMP简介 ...原创 2019-05-24 10:24:36 · 4698 阅读 · 1 评论 -
2019腾讯广告算法大赛题目理解与数据探索(含代码)
2019腾讯广告算法大赛题目理解与数据探索1.题目介绍1.1 背景介绍广告曝光预估的目的是在广告主创建新广告和修改广告设置时,为广告主提供 未来的广告曝光效果参考。通过这个预估参考,广告主能避免盲目的优化尝试,有效缩短广 告的优化周期,降低试错成本,使广告效果尽快达到广告主的预期范围。比赛中使用的数据 经过脱敏处理,通过本次大赛,我们旨在挑选出更为优秀的曝光预估算法以及遴选出杰出的 社交广告...原创 2019-05-27 20:11:10 · 9786 阅读 · 1 评论 -
如何选择合适的损失函数
【AI科技大本营导读】机器学习中的所有算法都依赖于最小化或最大化某一个函数,我们称之为“目标函数”。最小化的这组函数被称为“损失函数”。损失函数是衡量预测模型预测期望结果表现的指标。寻找函数最小值的最常用方法是“梯度下降”。把损失函数想象成起伏的山脉,梯度下降就像从山顶滑下,目的是到达山脉的最低点。没有一个损失函数可以适用于所有类型的数据。损失函数的选择取决于许多因素,包括是否有离群点,...转载 2019-05-10 19:30:36 · 2678 阅读 · 0 评论 -
数据挖掘之统计学基础(4):【实践】数据分布-Python实战
import numpy as npimport pandas as pdimport timeimport matplotlib as mplimport matplotlib.pyplot as plt%matplotlib inlineplt.style.use('ggplot')plt.rcParams['figure.figsize'] = (18.0, 10.0)...原创 2019-08-13 20:44:22 · 850 阅读 · 0 评论 -
P-R曲线与ROC曲线使用总结
P-R曲线与ROC曲线总结作者:jlianghttps://blog.csdn.net/jliang31.P-R曲线1)实际预测时二分类的四种情况 真阳性/真正类(True Positive,TP):预测为正类,实际是正类; 假阳性/假正类(False Positive,FP):预测为正类,实际是负类;误报,给出的匹配是不正确的; 真阴性/真负类(Tr...原创 2019-03-28 23:51:02 · 6690 阅读 · 0 评论 -
特征工程系列:特征筛选的原理与实现(上)
本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。那特征工程是什么?特征工程是利用数...原创 2019-07-18 21:35:01 · 809 阅读 · 0 评论 -
特征工程系列:特征筛选的原理与实现(下)
原创:JunLiang木东居士今天本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言我们在《特征工程系列:特征筛选的原理与实现(上)》中介绍了特征选择的分类,并详细介绍了过滤式特征筛选的原理与实现。本篇继续介绍封装式和嵌入式特征筛选的原理与实现。0...原创 2019-07-19 14:37:18 · 686 阅读 · 0 评论 -
特征工程系列:数据清洗
特征工程系列:数据清洗原创:JunLiang 木东居士前天特征工程系列:数据清洗本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地...原创 2019-08-02 19:14:54 · 1305 阅读 · 0 评论 -
特征工程系列:特征预处理(上)
特征工程系列:特征预处理(上)原创:JunLiang木东居士6天前特征工程系列:特征预处理(上)关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机...原创 2019-08-13 11:37:07 · 900 阅读 · 0 评论 -
特征工程系列:特征预处理(下)
特征工程系列:特征预处理(下)原创:JunLiang木东居士昨天特征工程系列:特征预处理(下)本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言数据预处理包含数据探索、数据清洗和特征预处理三部分,《特征工程系列:特征预处理(上)》介绍了无量纲化...原创 2019-08-13 11:38:39 · 641 阅读 · 0 评论 -
特征工程系列:特征构造之概览篇
原创:JunLiang木东居士1周前特征工程系列:特征构造之概览篇本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中...原创 2019-10-09 12:57:21 · 476 阅读 · 0 评论 -
转载:实用教程!使用YOLOv3训练自己数据的目标检测
实用教程!使用YOLOv3训练自己数据的目标检测52CV君 我爱计算机视觉 今天点击我爱计算机视觉标星,更快获取CVML新技术 YOLOv3是当前计算机视觉中最为流行的实时目标检测算法之一。 昨天LearnOpenCV网站博主又发福利,post了一个清晰明了的教程,一步一步示例,如何使用快速实时的YOLOv3算法,训练某种特定类别目标的检测器。 作者收集了...转载 2019-01-15 14:21:34 · 1596 阅读 · 0 评论 -
《深度学习工程师-吴恩达》05序列模型—序列模型和注意力机制 学习总结
《深度学习工程师-吴恩达》05序列模型—序列模型和注意力机制 学习笔记作者:jlianghttps://blog.csdn.net/jliang31.重点归纳1)基础模型(1)Sequence to sequence翻译模型 (2)Image to sequence图像描述模型:输入一张图片,它能自动地输出图片的描述 2)机...原创 2019-04-07 16:21:38 · 1042 阅读 · 0 评论 -
降维算法总结
作者:jlianghttps://blog.csdn.net/jliang31.降维简介1)相关背景(1)在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的工作量。 更重要的是在很多情形下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性。 ...原创 2019-03-30 19:35:50 · 31455 阅读 · 3 评论 -
《深度学习工程师-吴恩达》03卷积神经网络—特殊应用:人脸识别和神经风格转换 总结
作者:jlianghttps://blog.csdn.net/jliang3《深度学习工程师-吴恩达》03卷积神经网络—特殊应用:人脸识别和神经风格转换 学习总结1.重点归纳1)人脸识别(1)人脸验证:输入图片以及某人ID/姓名,系统会验证输入图片是否这个人,1对1问题(2)人脸识别:1对多问题,输入图片验证图片是否为已有用户。比验证问题复杂多了,准确率为99%的验证...原创 2019-01-22 21:19:04 · 1833 阅读 · 0 评论 -
《深度学习工程师-吴恩达》05序列模型--自然语言处理与词嵌入 总结
作者:jlianghttps://blog.csdn.net/jliang3《深度学习工程师-吴恩达》05序列模型--自然语言处理与词嵌入 学习总结1.重点归纳1)词汇表征 (1)词嵌入是语言表示的一种方式,可以让算法自动理解一些类似的词,...原创 2019-02-01 16:30:56 · 2162 阅读 · 0 评论 -
《深度学习工程师-吴恩达》05序列模型--循环序列模型 总结
作者:jlianghttps://blog.csdn.net/jliang3《深度学习工程师-吴恩达》04序列模型--循环序列模型 学习总结1.重点归纳1)循环神经网络(RNN)(1)循环神经网络(RNN)之类的模型在语音识别、自然语言处理和其他领域中一起变革,它属于监督学习,X和Y有时会不一样长,有时候会一样长。(2)例子:语音识别、音乐生成、文本情感分...原创 2019-01-26 18:34:47 · 1054 阅读 · 0 评论 -
《深度学习工程师-吴恩达》03卷积神经网络—深度卷积网络:实例探究 总结
作者:jlianghttps://blog.csdn.net/jliang3《深度学习工程师-吴恩达》03卷积神经网络—深度卷积网络:实例探究 学习总结1.重点归纳1)计算机视觉领域经典的神经网络(1)LeNet-5(2)AlexNet(3)VGG2)LeNet-5 这个网络很小只有60k个参数,而现代网络含有一千万到一亿个参数...原创 2019-01-15 19:44:38 · 3481 阅读 · 2 评论 -
《深度学习工程师-吴恩达》03卷积神经网络—目标检测 总结
作者:jlianghttps://blog.csdn.net/jliang3《深度学习工程师-吴恩达》03卷积神经网络—目标检测 学习总结1.重点归纳1)目标定位(1)只是检测图像类型时,只需要使用softmax输出每种类型的概率即可。当需要检测图像类型并且其在图像中的位置时,还需要输出被检测对象的边界框参数bounding box。(2)输出label定义(图像...原创 2019-01-19 19:04:32 · 2817 阅读 · 0 评论 -
《深度学习工程师-吴恩达》03卷积神经网络—卷积神经网络 总结
作者:jlianghttps://blog.csdn.net/jliang3《深度学习工程师-吴恩达》03卷积神经网络—卷积神经网络 学习总结1.重点归纳1)神经网络解决的视觉问题(1)图片分类(2)目标检测(3)图片风格迁移2)卷积神经网络的padding(1)不进行padding时存在的问题图像会缩小 在边缘区域的像素点在输出中采用较少,意...原创 2019-01-12 18:36:02 · 1724 阅读 · 0 评论 -
转载:归一化方法的两个问题讨论
归一化方法的两个问题讨论Microstrong0305 机器学习算法那些事 昨天作者:Microstrong0305链接:https://blog.csdn.net/program_developer/article/details/78637711编辑:石头 前几天有网友咨询我关于归一化的两个问题:(1) 归一化是否能够提高最优模型的收敛速度。(2) 标准...转载 2019-01-09 11:33:14 · 733 阅读 · 0 评论 -
《深度学习工程师-吴恩达》04结构化机器学习项目--机器学习(ML)策略2 笔记(如何进行误差分析)
作者:jlianghttps://blog.csdn.net/jliang3《深度学习工程师-吴恩达》04结构化机器学习项目--机器学习(ML)策略2 学习笔记1.重点归纳1)误差分析:如果算法还达不到理想效果,那么人工检查一下算法所犯的错误,也许可以让你了解接下来应该做什么,这个过程称为误差分析。(1)例子:一个取得90%准确率猫分类器,注意到有部分狗样本被识别为猫,使...原创 2019-02-21 20:39:06 · 7514 阅读 · 0 评论 -
《深度学习工程师-吴恩达》04结构化机器学习项目--机器学习(ML)策略1 总结 (如何进一步优化系统的方法论)
作者:jlianghttps://blog.csdn.net/jliang3《深度学习工程师-吴恩达》04结构化机器学习项目--机器学习(ML)策略1 学习总结1.重点归纳1)ML策略(机器学习策略)就是如何构建你的机器学习项目,目的是快速有效的方法能够判断哪些想法是靠谱的,或者甚至提出新的想法,判断哪些值得一试的想法,哪些是可以放心舍弃的。2)正交化(1)正交...原创 2019-02-17 16:36:04 · 3656 阅读 · 0 评论 -
特征选择/筛选方法总结
作者:jlianghttps://blog.csdn.net/jliang31.特征选择介绍1)特征分类相关特征:对于学习任务(例如分类问题)有帮助,可以提升学习算法的效果; 无关特征:对于我们的算法没有任何帮助,不会给算法的效果带来任何提升; 冗余特征:不会对我们的算法带来新的信息,或者这种特征的信息可以由其他的特征推断出;2)特征选择的目的对于一个特定的学习算法...原创 2019-03-30 14:51:16 · 83118 阅读 · 6 评论 -
基于深度学习的webshell检测(二)
基于深度学习的webshell检测(二)ReLuQ1 人赞同了该文章综述上一篇主要讲述如何使用机器学习方法来进行webshell检测,本章将使用深度学习方法同样完成这一任务webshell,从本质上来看就是一个代码文件,其中包含的是文本信息,不同的是他是计算机语言的文本信息。 那么,我们可以思考,是否可以参照nlp(自然语言处理)来进行的文本类任务同样将其应用于计算机语言的...转载 2019-03-08 21:37:38 · 1789 阅读 · 0 评论 -
基于机器学习的webshell检测(一)
本篇主要讲述,如何使用机器学习的方法来对网络安全中常见的风险点:webshell进行检测本篇会使用LR ,XGB两种模型进行测试,下一篇将会使用深度学习方法来解决该问题(1)首先我们简单介绍一下什么是webshell:webshell,是一种基于互联网web程序以及web服务器而存在的一种后门形式,主要通过网页脚本程序和服务器容器所支持的后端程序,在web服务器及其中间件中进...转载 2019-03-08 21:34:49 · 4725 阅读 · 3 评论 -
TensorFlow之变量管理及模型持久化 学习总结
作者:jlianghttps://blog.csdn.net/jliang3TensorFlow实战Google深度学习框架学习笔记说明:以下所有代码使用版本TensorFlow1.4.0或1.12.0版本import tensorflow as tfprint(tf.__version__)1.12.05. MNIST数字识别问题5.1 MNIST数据处理MNIST数据集是...原创 2019-03-03 16:53:56 · 388 阅读 · 0 评论 -
Batch Normalization原理及其TensorFlow实现——为了减少深度神经网络中的internal covariate shift,论文中提出了Batch Normalization算
Batch Normalization原理及其TensorFlow实现——为了减少深度神经网络中的internal covariate shift,论文中提出了Batch Normalization算法,首先是对”每一层“的输入做一个Batch Normalization 变换批标准化(Bactch Normalization,BN)是为了克服神经网络加深导致难以训练而诞生的,随着神经网络深度...转载 2019-02-25 20:14:06 · 256 阅读 · 0 评论 -
深度学习应用实例--对话机器人--简介
作者:jlianghttps://blog.csdn.net/jliang3 深度学习应用实例--对话机器人--简介对话机器人按功能分类 单轮会话场景:QA形式,一问一答,标准答案只有一个,相似问句会有很多个。 多轮会话场景:基于意图(intents)和实体(entities)识别,预先设置词槽(slots),在多轮对话中通过主动询问来获得填充词槽...原创 2019-02-13 12:36:16 · 2933 阅读 · 0 评论 -
聊天机器人(chatbot)终极指南:自然语言处理(NLP)和深度机器学习(Deep Machine Learning)
为了这份爱在过去的几个月中,我一直在收集自然语言处理(NLP)以及如何将NLP和深度学习(Deep Learning)应用到聊天机器人(Chatbots)方面的最好的资料。时不时地我会发现一个出色的资源,因此我很快就开始把这些资源编制成列表。 不久,我就发现自己开始与bot开发人员和bot社区的其他人共享这份清单以及一些非常有用的文章了。在这个过程中,我的名单变成了一个指南,经过一些好...转载 2019-02-18 12:29:16 · 691 阅读 · 0 评论 -
转载:图解当前最强语言模型BERT:NLP是如何攻克迁移学习的?
图解当前最强语言模型BERT:NLP是如何攻克迁移学习的? 前段时间,谷歌发布了基于双向 Transformer 的大规模预训练语言模型 BERT,该预训练模型能高效抽取文本信息并应用于各种 NLP 任务,该研究凭借预训练模型刷新了 11 项 NLP 任务的当前最优性能记录。技术博主 Jay Alammar 近日发文通过图解方式生动地讲解了 BERT 的架构和方法基础。20...转载 2019-01-10 18:55:16 · 503 阅读 · 0 评论