机器学习
文章平均质量分 70
小金子的夏天
不深思则不能造于道。不深思而得者,其得易失。
展开
-
隐私保护技术之安全多方计算
安全多方计算(Secure Multi-Party Computation,SMPC)用于解决一组互不信任的参与方各自持有秘密数据,协同计算一个既定函数的问题。安全多方计算在保证参与方获得正确计算结果的同时,无法获得计算结果之外的任何信息。在整个计算过程中,参与方对其所拥有的数据始终拥有绝对的控制权。...原创 2022-08-25 17:54:23 · 322 阅读 · 0 评论 -
Synonyms 中文近义词工具包 -- 支持文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等
GitHub - chatopera/Synonyms: 中文近义词:聊天机器人,智能问答工具包SynonymsChinese Synonyms for Natural Language Processing and Understanding.更好的中文近义词:聊天机器人、智能问答工具包。synonyms可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。Table of Content:Install Usage原创 2022-03-09 16:54:39 · 3464 阅读 · 0 评论 -
lstm实例:构建lstm模型过程
参考连接:LSTM系列_3.1~3.3、第一个LSTM小例子:Keras中LSTM建模的5个核心步骤(python)_日拱一卒-CSDN博客_lstm python 例子1.定义网络我们将构建一个LSTM神经网络,在可见层中具有1个输入时间步长和1个输入特征,在LSTM隐藏层中具有10个存储器单元,在完全连接的输出层中具有1个具有线性(默认)激活功能的神经元。2.编译网络我们将使用具有默认配置和均方误差丢失函数的高效ADAM优化算法,因为它是回归问题。3.适合网络我们将使网络适合1,原创 2022-03-03 13:29:23 · 12291 阅读 · 0 评论 -
(转)lstm实例:预测文本的下一个词
参考连接:https://www.jb51.net/article/189946.htmLSTM问题,能够预测一句话的下一个字词是什么使用one-hot编码各种引用import kerasfrom keras.models import Sequentialfrom keras.layers import LSTM, Dense, Dropoutimport numpy as np数据预处理data = 'abcdefghijklmnopqrstuvwxyz'data_s原创 2022-03-03 13:21:58 · 815 阅读 · 0 评论 -
Python gensim库使用word2vec 加载和保存模型
1. 训练模型读取训练数据并使用jieba分词,可以准备自己想要训练的语料,import osimport jieba# 读取训练数据pos_file_list = os.listdir('data/pos')neg_file_list = os.listdir('data/neg')pos_file_list = [f'data/pos/{x}' for x in pos_file_list]neg_file_list = [f'data/neg/{x}' for x in neg原创 2022-03-02 16:44:58 · 4659 阅读 · 0 评论 -
拉格朗日插值——基于scipy实现
python 实现from scipy.interpolate import lagrangex = [3, 6, 9]y = [10, 8, 4]lagrange(x,y)#poly1d([ -0.11111111, 0.33333333, 10. ])12345以上 lagrange(x,y) 的输出值 poly1d([−0.11111111,0.33...原创 2019-08-13 21:20:08 · 4155 阅读 · 4 评论 -
ARIMA模型----时间序列的平稳性检验与随机性检验
参考链接:https://blog.csdn.net/linchuhai/article/details/87920764模型介绍ARIMA,差分自回归滑动平均模型,又称求自回归滑动平均模型,是时间序列预测分析方法之一。ARIMA(p,d,q)中,AR是“自回归”,p为自回归项数;MA是“滑动平均”,q为滑动平均项数;d是使之成为平稳序列所做的差分次数(阶数)。1. ARIMA的优...原创 2019-08-09 10:00:34 · 25970 阅读 · 2 评论 -
关联规则挖掘(Apriori算法)
参考连接:https://www.cnblogs.com/shizhenqiang/p/8251213.htmlhttps://www.cnblogs.com/nxld/p/6380417.html一、概念 相关概念:项 - 项集...原创 2019-08-08 15:17:47 · 6015 阅读 · 2 评论 -
Keras介绍
Keras是一个高层神经网络API,Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。Keras 为支持快速实验而生,能够把你的idea迅速转换为结果,如果你有如下需求,请选择Keras:简易和快速的原型设计(keras具有高度模块化,极简,和可扩充特性) 支持CNN和RNN,或二者的结合 无缝CPU和GPU切换Keras的设计原则用户友...原创 2019-07-26 20:20:03 · 5555 阅读 · 0 评论 -
机器学习 特征提取
特征提取:从原有属性中选择一个子集,达到降维目的。原文:https://blog.csdn.net/mr_tyting/article/details/73413979其中第一种过滤型很少使用。特征选择思想简介先大概讲讲上面三种方法思想:过滤型变量排序就是一种典型的过滤式方法,该方法独立于后续要使用的模型。这种方法的关键就是找到一种能度量特征重要性的方法,...原创 2019-07-26 20:07:14 · 1151 阅读 · 0 评论 -
机器学习之分类与回归树(CART)
原文链接:https://blog.csdn.net/XiaoYi_Eric/article/details/800814491.分类与回归树简介分类与回归树的英文是Classfication And Regression Tree,缩写为CART。CART算法采用二分递归分割的技术将当前样本集分为两个子样本集,使得生成的每个非叶子节点都有两个分支。非叶子节点的特征取值为True和...原创 2019-08-09 13:06:06 · 416 阅读 · 0 评论 -
机器学习--集成学习(Ensemble Learning)
一. 集成学习法 集成学习(Ensemble Learning)在机器学习算法中具有较高的准去率,不足之处就是模型的训练过程可能比较复杂,效率不是很高。目前集成学习主要有2种:基于Boosting的和基于Bagging,前者的代表算法有Adaboost、GBDT、XGBOOST等、后者的代表算法主要是随机森林(Random Forest)。 在机器习的有监督...原创 2019-08-09 14:48:32 · 730 阅读 · 0 评论 -
GBDT
GBDT的全称是Gradient Boosting Decision Tree,梯度提升决策树,核心在于累加所有树的结果作为最终结果,因此决定了他用的决策树是回归树。1. 首先gbdt 是通过采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。gbdt的训练过程我们通过一张图片来说明gbdt的训练过程: ...原创 2019-08-09 16:02:44 · 1878 阅读 · 0 评论 -
训练神经网络的五大算法
神经网络模型的每一类学习过程通常被归纳为一种训练算法。训练的算法有很多,它们的特点和性能各不相同。问题的抽象人们把神经网络的学习过程转化为求损失函数f的最小值问题。一般来说,损失函数包括误差项和正则项两部分。误差项衡量神经网络模型在训练数据集上的拟合程度,而正则项则是控制模型的复杂程度,防止出现过拟合现象。损失函数的函数值由模型的参数(权重值和偏置值)所决定。我们可以把...原创 2019-08-13 09:42:59 · 4168 阅读 · 0 评论 -
依赖Anaconda环境安装TensorFlow库
1.在centos7 的docker环境下,python3.7 安装tensorflow,各种坑。 ImportError: /lib64/libm.so.6: version `GLIBC_2.23' not found ImportError: /usr/lib64/libstdc++.so.6: version `GLIBCXX_3.4.17' not found安装Tenso...原创 2019-08-22 16:34:36 · 646 阅读 · 1 评论 -
centos7+py3.7环境下运行TensorFlow的各种问题及解决
我是在centos7+python3.7的环境下跑backend为TF的keras的RNN模型,发现各种问题问题1.ImportError: /lib64/libstdc++.so.6: version `CXXABI_1.3.8' not found网上给出的解决这个问题的方式是安装较新的libstdc++.so.6.x.x,安装好后,这个问题解决了,又出现了新问题2问题2.Impo...原创 2019-08-22 16:55:54 · 352 阅读 · 0 评论 -
optics 聚类算法实例
#!/usr/bin/env python# -*- coding:utf-8 -*-import numpy as npimport matplotlib.pyplot as pltimport copyfrom sklearn.datasets import make_moonsfrom sklearn.datasets.samples_generator import m...原创 2019-09-02 13:53:39 · 2116 阅读 · 0 评论 -
svm 简单理解
1.线性可分(linearly separable):如果很容易就可以在图中画出一条直线将两组数据点分开,就称这组数据为线性可分数据2.分隔超平面(separating hyperplane):将数据集分隔开来的直线称为分隔超平面3. 如果数据集是1024维的,那么就需要一个1023维的超平面来对数据进行分隔4. 间隔(margin):数据点到分隔面的距离称为间隔5.支持向量...原创 2019-09-27 10:15:02 · 866 阅读 · 0 评论 -
主成分分析(PCA)原理详解
1.相关背景在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性。如果分别对每个指标进行分析,分析往往是孤立的,不能完全利用数据中的信息,因此盲目减少指标会损失很多有用的信息,从而产...原创 2019-07-26 20:02:33 · 1883 阅读 · 0 评论 -
聚类方法:DBSCAN算法
DBScan是一种基于密度的聚类算法,它有一个核心点的概念:如果一个点,在距它Eps的范围内有不少于MinPts个点,则该点就是核心点。核心和它Eps范围内的邻居形成一个簇。一:基本概念1.:对象O的是与O为中心,为半径的空间,参数,是用户指定每个对象的领域半径值。2.MinPts(领域密度阀值):对象的的对象数量。3.核心对象:如果对象O的对象数量至少包含MinPts个对象,则该...原创 2019-03-07 15:07:56 · 1181 阅读 · 0 评论 -
基于密度的聚类方法-OPTICS
在DBSCAN算法中,我们知道该算法需要用户输入半径和阀值。这显然是不靠谱的,虽然我们可以通过其他方法来优化参数的选择,但这其实不是最好的做法。这里为了克服在聚类分析中使用一组全局参数的缺点,这里提出了OPTICS算法。该算法的牛逼之处在于:它并不显示地产生数据集聚类,而是为聚类分析生成一个增广的簇排序(如以样本点输出次序为横轴,以可达距离为纵轴的坐标图)。那么这个排序就厉害了,它代表了各...原创 2019-03-18 15:41:16 · 1110 阅读 · 4 评论 -
HBase学习:HBase表结构及数据模型的理解
在学习hbase,感觉这篇还挺好的,就整理了一下,参考链接:https://blog.csdn.net/whdxjbw/article/details/81101200HBase表结构(可以直接参考下面的表来理解hbase的存储结构)这里以一个公司员工表为案例来讲解,此表中包含员工基本信息(员工姓名、年龄),员工详细信息(工资、角色),以及时间戳。整体表结构如下:如上,每一行有一个...原创 2019-04-04 10:20:57 · 581 阅读 · 0 评论 -
HBase架构及读写流程
参考链接:https://blog.csdn.net/whdxjbw/article/details/81107285Hbase架构分析架构中有以下几个角色:1、HMaster负责管理HBase元数据,即表的结构、表存储的Region等元信息。负责表的创建,删除和修改(因为这些操作会导致HBase元数据的变动)。负责为HRegionServer分配Region,分配好后也会...原创 2019-04-04 10:27:29 · 199 阅读 · 0 评论 -
机器学习、神经网络、深度学习区别
由于学艺不精(其实就是瞎鸡儿学),让这几个概念把我弄蒙了。神经网络、深度学习区别: 这两个概念实际上是互相交叉的,例如,卷积神经网络(Convolutional neural networks,简称CNNs)就是一种深度的监督学习下的机器学习模型,而深度置信网(Deep Belief Nets,简称DBNs)就是一种无监督学习下的机器学习模型。 深度学习的概念源于人工神经网络...原创 2019-05-30 09:37:57 · 33704 阅读 · 9 评论 -
机器学习---分类、回归、聚类、降维的区别
classification (分类),regression (回归),clustering (聚类),dimensionality reduction (降维)。给定一个样本特征, 我们希望预测其对应的属性值, 如果是离散的, 那么这就是一个分类问题,反之,如果是连续的实数, 这就是一个回归问题。如果给定一组样本特征, 我们没有对应的属性值, 而是...转载 2019-05-30 17:46:26 · 1343 阅读 · 0 评论 -
word2vector
中文分词、向量化,这两篇写的很好!!!https://www.cnblogs.com/Newsteinwell/p/6034747.htmlhttps://blog.csdn.net/sinat_29694963/article/details/79177832最初,人们想用一串数字表示一段文字,用的是one-hot置换法。就是将一篇文章中所有不重复的词的个数,作为词汇表的大小,词汇...原创 2019-05-30 18:38:20 · 1324 阅读 · 0 评论 -
TF-IDF(Term Frequency–Inverse Document Frequency)
1. TF-IDF(Term Frequency–Inverse Document Frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份 文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索 引擎应用,作为文件与用户...原创 2019-05-30 18:44:49 · 1499 阅读 · 0 评论 -
数据标准化/归一化normalization
1 数据的标准化(normalization)和归一化数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。目前数据标准化方法有多种,归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法...原创 2019-05-31 09:40:09 · 4357 阅读 · 0 评论 -
DBSCAN 实例
#!/usr/bin/env python# -*- coding:utf-8 -*-import numpy as npimport sklearn.cluster as skcfrom sklearn import metricsimport matplotlib.pyplot as pltdata=[ [-2.68420713,1.469732895,2],[-2...原创 2019-06-25 17:31:44 · 1012 阅读 · 0 评论 -
机器学习 - 异常检测算法之概率分布和孤立森林
0.引言异常检测应用在工业检测、账户行为监测等领域。问题特点:样本比例高度不均衡,异常点总是极少数的; 异常样本子集一般不具备共性的特征,异常的方式各不相同,难以作为一个类别分类 高维数据中,并非所有的样本都会用到,需要特征选择; 由于样本高度不平衡,因此测试的指标往往用F1;异常检测问题,往往更多使用无监督的算法建模,再结合标定的验证集用于切阈值。异常检测的两类常用方法:...原创 2019-07-24 10:07:04 · 824 阅读 · 0 评论 -
机器学习算法性能评测指标
ROC/AUChttps://blog.csdn.net/YE1215172385/article/details/794485751、roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。横轴:负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例;(...原创 2019-07-29 09:56:30 · 260 阅读 · 0 评论 -
机器学习 - 异常检测算法之检测异常点击流
修改自:https://blog.csdn.net/mergerly/article/details/77985089本文内容是我学习ML时做的一个练手项目,描述应用机器学习的一般步骤。该项目的目标是从点击流数据中找出恶意用户的请求。点击流数据长下图这样子,包括请求时间、IP、平台等特征:该项目从开始做到阶段性完成,大致可分为两个阶段:算法选择和工程优化。算法选择阶段挑选合适的ML模型...原创 2019-07-24 10:52:52 · 774 阅读 · 0 评论 -
【转】异常检测的N种方法,阿里工程师都盘出来了
阿里妹导读:互联网黑产盛行,其作弊手段层出不穷,导致广告效果降低,APP推广成本暴增。精准识别作弊是互联网公司和广告主的殷切期望。今天我们将从时间序列、统计、距离、线性方法、分布、树、图、行为序列、有监督机器学习和深度学习模型等多个角度探讨异常检测。作者 | 黎伟斌、胡熠、王皓背景异常点检测(Outlier detection),又称为离群点检测,是找出与预期对象的行...原创 2019-07-24 10:58:46 · 542 阅读 · 0 评论 -
机器学习 - 异常检测算法之孤立森林(Isolation Forest)
参考:https://blog.csdn.net/extremebingo/article/details/80108247背景现有的异常检测方法:通过对正常样本的描述,给出一个正常样本在特征空间中的区域,对于不在这个区域中的样本,视为异常。这些方法的主要缺点是,异常检测器只会对正常样本的描述做优化,而不会对异常样本的描述做优化,这样就有可能造成大量的误报,或者只检测到少量的异常。异...原创 2019-07-24 14:02:29 · 2342 阅读 · 0 评论 -
孤立森林(Isolation Forest)-python实例
两个实例:1.来自于 sklearn官网 2.自己构造数据,在第二个例子中发现,dbscan认为的的异常包含在itree认为异常中,也就是说itree,会给出一个异常的排序,需要看到这个顺序(后面再做)例子1:import numpy as npimport matplotlib.pyplot as pltfrom sklearn.ensemble import IsolationFor...原创 2019-07-24 16:57:48 · 7942 阅读 · 0 评论 -
机器学习中 L1 和 L2 正则化的直观解释
机器学习中,如果参数过多,模型过于复杂,容易造成过拟合(overfit)。即模型在训练样本数据上表现的很好,但在实际测试样本上表现的较差,不具备良好的泛化能力。为了避免过拟合,最常用的一种方法是使用使用正则化,例如 L1 和 L2 正则化。但是,正则化项是如何得来的?其背后的数学原理是什么?L1 正则化和 L2 正则化之间有何区别?L1会使得某些参数为0,具有稀疏性,而L2没有这个功能,使得参数的...原创 2019-07-31 09:26:33 · 298 阅读 · 0 评论