机器学习
文章平均质量分 83
数据科学家corten
python 爬虫工程师,数据挖掘工程师,数据分析工程师,机器学习研究员,自然语言处理工程师,量化研究分析员,人工智障调参工程师
展开
-
python与自然语言处理3朴素贝叶斯
1. 引言上一篇文章我们主要从理论上梳理了朴素贝叶斯方法进行文本分类的基本思路。这篇文章我们主要从实践上探讨一些应用过程中的tricks,并进一步分析贝叶斯方法,最后以情绪褒贬分析和拼写纠错为例展示这种简单强大的方法在自然语言处理问题上的具体应用。2. 为什么不直接匹配关键词来识别垃圾邮件?看了上一篇文章的一些同学可能会问:“何必费这么大劲算那么多词的概率?直接看邮件中有没...原创 2022-08-18 17:16:13 · 399 阅读 · 0 评论 -
机器学习之降维
python大战机器学习——数据降维注:因为公式敲起来太麻烦,因此本文中的公式没有呈现出来,想要知道具体的计算公式,请参考原书中内容 降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中1、主成分分析(PCA) 将n维样本X通过投影矩阵W,转换为K维矩阵Z 输入:样本集D,低维空间d 输出:投影矩阵W 算法步骤:原创 2017-12-05 16:36:35 · 499 阅读 · 0 评论 -
机器学习之聚类
聚类1、聚类试图将数据集中的数据划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster)2、聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名思考:簇所对应的概念固然是可以任意命名的,但我们一般的规律仍然是通过样本的属性来命名的,这就意味着,有可能根据样本特征给不同的簇命名3、聚类既能作为一个单独的过程,用于找寻数据内在的分布结原创 2017-12-01 16:54:29 · 1844 阅读 · 0 评论 -
机器学习之神经网络
1. 背景: 1.1 以人脑中的神经网络为启发,历史上出现过很多不同版本 1.2 最著名的算法是1980年的 backpropagation 2. 多层向前神经网络(Multilayer Feed-Forward Neural Network) 2.1 Backpropagation被使用在多层向前神经网络上 2.2 多层向前神经网络由以原创 2017-12-05 15:03:20 · 224 阅读 · 0 评论 -
深度学习
shen神经网络结构两个隐藏层的神经网络MultiLayer Perceptions (MLP): 实际是sigmoid neurons, 不是perceptrons 假设识别一个手写图片:如果图片是64*64, 输入层总共有64*64 = 4096个神经元如果图片是28*28, 输入层总共有28*28 = 784个神经元原创 2017-12-13 16:30:06 · 674 阅读 · 0 评论 -
python自然语言处理之lda
自然语言处理之LDALDA由PLSA发展而来,PLSA由LSA发展而来,同样用于隐含语义分析,这里先给出两篇实现LSA和PLSA的文章链接。自然语言处理之LSA自然语言处理之PLSA我们知道,PLSA也定义了一个概率图模型,假设了数据的生成过程,但是不是一个完全的生成过程:没有给出先验。因此PLSA给出的是一个最大似然估计(ML)或者最大后验估计(MAP)。LD原创 2017-12-21 16:15:13 · 2654 阅读 · 0 评论 -
python与自然语言处理之贝叶斯实战
1.引言前两篇博文介绍了朴素贝叶斯这个名字读着”萌蠢”但实际上简单直接高效的方法,我们也介绍了一下贝叶斯方法的一些细节。按照老规矩,『锄头』给你了,得负责教教怎么用和注意事项,也顺便带大家去除除草对吧。恩,此节作为更贴近实际应用的部分,将介绍贝叶斯方法的优缺点、常见适用场景和可优化点,然后找点实际场景撸点例子练练手,看看工具怎么用。PS:本文所有的python代码和ipython原创 2017-12-21 12:04:08 · 1712 阅读 · 0 评论 -
python 与自然语言处理之语言模型n-gram
1. 引言:朴素贝叶斯的局限性我们在之前文章《NLP系列(2)_用朴素贝叶斯进行文本分类(上)》探讨过,朴素贝叶斯的局限性来源于其条件独立假设,它将文本看成是词袋子模型,不考虑词语之间的顺序信息,就会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢?有,就是本节要接到的N-gram语言模型。2. N-gram语言模型是啥?原创 2017-12-21 12:07:18 · 12318 阅读 · 1 评论 -
机器学习之knn
1、KNN分类算法KNN分类算法(K-Nearest-Neighbors Classification),又叫K近邻算法,是一个概念极其简单,而分类效果又很优秀的分类算法。他的核心思想就是,要确定测试样本属于哪一类,就寻找所有训练样本中与该测试样本“距离”最近的前K个样本,然后看这K个样本大部分属于哪一类,那么就认为这个测试样本也属于哪一类。简单的说就是让最相似的K个样本来投票决定原创 2017-11-27 17:29:54 · 361 阅读 · 0 评论 -
机器学习之 数据预处理 preprocessing
数据归一化及两种常用归一化方法数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的:min-max标准化(Min-Max Nor原创 2017-11-27 17:52:35 · 1117 阅读 · 0 评论 -
机器学习之决策树
决策树算法的优点:1:理解和解释起来简单,且决策树模型可以想象2:需要准备的数据量不大,而其他的技术往往需要很大的数据集,需要创建虚拟变量,去除不完整的数据,但是该算法对于丢失的数据不能进行准确的预测3:决策树算法的时间复杂度(即预测数据)是用于训练决策树的数据点的对数4:能够处理数字和数据的类别(需要做相应的转变),而其他算法分析的数据集往往是只有一种类型的变量5:能够处理多原创 2017-11-28 10:49:45 · 475 阅读 · 0 评论 -
机器学习之专业术语
经验误差和过拟合 错误率(error rate):分类错误的样本数占总样本的比例“精度”(accuracy):就是1-错误率。。。(为嘛不翻译成正确率)误差(error ):实际预测输出和样本真实输出之间的差异训练误差/经验误差(training error):学习器在训练集上的误差泛化误差(generalization error):在新样本上的误原创 2017-11-28 11:07:16 · 224 阅读 · 0 评论 -
python与自然语言处理之rnn在 nlps上的应用
1.引言在离人工智能越来越近的今天,研究界和工业界对神经网络和深度学习的兴趣也越来越浓,期待也越来越高。 我们在深度学习与计算机视觉专栏中看过计算机通过卷积神经网络学会了识别图片的内容——模仿人类的看,而工业界大量的应用也证明了神经网络能让计算机学会听(比如百度的语音识别),于是大量的精力开始投向NLP领域,让计算机学会写也一定是非常有意思的事情,试想一下,如果计算机通过读韩寒和小四的原创 2017-12-25 12:26:13 · 1388 阅读 · 0 评论 -
神经网络之cost函数损失函数,
【机器学习】代价函数(cost function)注:代价函数(有的地方也叫损失函数,Loss Function)在机器学习中的每一种算法中都很重要,因为训练模型的过程就是优化代价函数的过程,代价函数对每个参数的偏导数就是梯度下降中提到的梯度,防止过拟合时添加的正则化项也是加在代价函数后面的。在学习相关算法的过程中,对代价函数的理解也在不断的加深,在此做一个小结。 1.原创 2017-12-07 15:54:10 · 7480 阅读 · 0 评论 -
机器学习之softmax函数
Softmax分类函数 这篇教程是翻译Peter Roelants写的神经网络教程,作者已经授权翻译,这是原文。该教程将介绍如何入门神经网络,一共包含五部分。你可以在以下链接找到完整内容。(一)神经网络入门之线性回归Logistic分类函数(二)神经网络入门之Logistic回归(分类问题)(三)神经网络入门之隐藏层设计Softmax分类函数(四原创 2017-12-07 16:35:45 · 1887 阅读 · 0 评论 -
sk-learn 学习官方笔记1
加载示例数据集scikit-learn提供了一些标准数据集,例如 用于分类的 虹膜和数字数据集和波士顿房价回归数据集。在下文中,我们从shell中启动一个Python解释器,然后加载iris和digits数据集。我们的符号约定是 $表示shell提示符,而>>>表示Python解释器提示符:$ python>>> from s原创 2017-12-18 14:30:37 · 353 阅读 · 0 评论 -
python与自然语言处理1 正则匹配
find()方法语法:str.find(str, beg=0, end=len(string))参数str -- 指定检索的字符串beg -- 开始索引,默认为0。end -- 结束索引,默认为字符串的长度。返回值如果包含子字符串返回开始的索引值,否则返回-1。实例以下实例展示了find()方法的实例:实例(Python原创 2017-12-18 17:38:02 · 373 阅读 · 0 评论 -
python与自然语言处理 2结巴分词
特点1,支持三种分词模式: a,精确模式,试图将句子最精确地切开,适合文本分析; b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; c,搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。2,支持繁体分词3,支持自定义词典安装1,Python 2.x 下原创 2017-12-18 17:39:21 · 459 阅读 · 0 评论 -
python与自然语言处理之朴素贝叶斯下
1. 引言上一篇文章我们主要从理论上梳理了朴素贝叶斯方法进行文本分类的基本思路。这篇文章我们主要从实践上探讨一些应用过程中的tricks,并进一步分析贝叶斯方法,最后以情绪褒贬分析和拼写纠错为例展示这种简单强大的方法在自然语言处理问题上的具体应用。2. 为什么不直接匹配关键词来识别垃圾邮件?看了上一篇文章的一些同学可能会问:“何必费这么大劲算那么多词的概率?直接看邮件中有没原创 2017-12-21 12:06:06 · 1634 阅读 · 0 评论 -
python与自然语言处理之朴素贝叶斯上
1. 引言贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。2. 贝叶斯公式贝叶斯公式就一行:P(Y|X)=P(X|Y)P(Y)P(X)而它其实是由以下的联合概率公式推导出来:P(原创 2017-12-21 12:01:31 · 1703 阅读 · 0 评论 -
python . 数据分析1 数据的预处理
本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;1. 标准化(Standardization or Mean Removal and Variance Scaling)变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化)。计算方式是将特征值减去均值,除以标准差。sklearn.原创 2017-11-22 09:42:40 · 1481 阅读 · 0 评论 -
hadoop(2)什么是hdfs
1hdfs:Hadoop就有一个称为HDFS的分布式文件系统,全称为Hadoop Distributed File System。HDFS是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了原创 2017-11-17 15:05:35 · 981 阅读 · 0 评论 -
机器学习 特征标准化
为什么要特征标准化 (机器学习)莫烦10 个月前今天我们会来聊聊机器学习所需要的数据,为了让机器学习方面消化, 我们需不需要对数据动些手脚呢. 所以今天就会提到特征数据的标准化, 也可以说正常化, 归一化, 正规化等等.注: 本文不会涉及数学推导. 大家可以在很多其他地方找到优秀的数学推导文章.因为本文原作是一段短视频介绍.所以首先放视频链接: Yout原创 2017-11-09 12:40:33 · 430 阅读 · 0 评论 -
机器学习-决策树
算算有相当一段时间没写blog了,主要是这学期作业比较多,而且我也没怎么学新的东西接下来打算实现一个小的toy lib:DML,同时也回顾一下以前学到的东西当然我只能保证代码的正确性,不能保证其效率啊~~~~~~之后我会陆续添加进去很多代码,可以供大家学习的时候看,实际使用还是用其它的吧================================================原创 2017-08-31 08:52:10 · 200 阅读 · 0 评论 -
knn最近邻算法原理与实现
1. 综述 1.1 Cover和Hart在1968年提出了最初的邻近算法 1.2 分类(classification)算法 1.3 输入基于实例的学习(instance-based learning), 懒惰学习(lazy learning)2. 例子: 未知电影属于原创 2017-09-04 13:04:36 · 320 阅读 · 0 评论 -
机器学习决策树的算法实现
#coding=gbk# DictVectorizer:数据类型转换from sklearn.feature_extraction import DictVectorizer# csv:原始数据放在csv文件中,该package为python自带,不需要安装import csv#引入数据预处理包、决策树包、读写字符串包from sklearn import preprocessi原创 2017-09-04 11:22:20 · 376 阅读 · 0 评论 -
随机森林原理及参数调优
决策树1.决策树与随机森林都属于机器学习中监督学习的范畴,主要用于分类问题。 决策树算法有这几种:ID3、C4.5、CART,基于决策树的算法有bagging、随机森林、GBDT等。 决策树是一种利用树形结构进行决策的算法,对于样本数据根据已知条件或叫特征进行分叉,最终建立一棵树,树的叶子结节标识最终决策。新来的数据便可以根据这棵树进行判断。随机森林是一种通过多棵决策树进行优化决策原创 2017-08-31 10:05:14 · 9411 阅读 · 0 评论 -
机器学习之线性模型
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1. 梯度 在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂原创 2017-11-29 10:32:31 · 4022 阅读 · 0 评论 -
hadoop(3)map reduce
Hadoop项目主要包括一下四个模块1、Hadoop Common 为其他Hadoop模块提供基础设施。2、Hadoop HDFS 一个高可靠、高吞吐量的分布式文件系统3、Hadoop MapReduce 一个分布式的离线并行计算框架。4、Hadoop YARN 一个新的MapReduce框架,任务调度与资源管理。HDFS系统原创 2017-11-20 16:47:20 · 287 阅读 · 0 评论 -
python与数据分析 pandas 基础
pandas 基础import pandas as pd import numpy as pys = pd.Sreies([1,3,5,npp.nan,44,1])print (s)data = pd.data_range('20170101',period=6)df = DataFrame(np.random.randn(6,4)原创 2017-11-03 16:18:29 · 1142 阅读 · 0 评论 -
机器学习之集成学习 bagging与随机森林
Bagging与随机森林算法原理小结 在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。本文就对集成学习中Bagging与随机森林算法做一个总结。 随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法,尤其是原创 2017-11-30 16:36:58 · 2051 阅读 · 1 评论 -
机器学习之集成学习之adaboost
Adaboost算法原理分析和实例+代码(简明易懂) 【尊重原创,转载请注明出处】 http://blog.csdn.net/guyuealian/article/details/70995333 本人最初了解AdaBoost算法着实是花了几天时间,才明白他的基本原理。也许是自己能力有限吧,很多资料也是看得懵懵懂懂。网上找了一下关于Adaboost算法原理分析,大都是你复制我,我原创 2017-11-30 16:05:17 · 962 阅读 · 0 评论 -
机器学习与em算法
EM算法原理和python简单实现发表于2017/9/7 9:41:18 475人阅读分类: 机器学习算法 目录 第一章最大似然估计 1第二章最大似然估计到EM 2第三章 EM算法推导 3第四章 EM例子和python代码 7参考文献 8 最大似然原创 2017-11-30 15:03:59 · 313 阅读 · 0 评论 -
机器学习与贝叶斯分类器
stick-learn朴素贝叶斯的三个常用模型:高斯、多项式、伯努利朴素贝叶斯是一个很不错的分类器,在使用朴素贝叶斯分类器划分邮件有关于朴素贝叶斯的简单介绍。若一个样本有n个特征,分别用x1,x2,...,xn表示,将其划分到类yk的可能性P(yk|x1,x2,...,xn)为:P(yk|x1,x2,...,xn)=P(yk)∏ni=1P(xi|yk)上式中等号右侧的各个值可以原创 2017-11-30 12:32:14 · 437 阅读 · 0 评论 -
机器学习与支持向量机
第一层、了解SVM1.0、什么是支持向量机SVM 要明白什么是SVM,便得从分类说起。 分类作为数据挖掘领域中一项非常重要的任务,它的目的是学会一个分类函数或分类模型(或者叫做分类器),而支持向量机本身便是一种监督式学习的方法(至于具体什么是监督学习与非监督学习,请参见此系列Machine L&Data Mining第一篇),它广泛的应用于统计分类以及回归分原创 2017-11-30 10:59:49 · 1159 阅读 · 0 评论 -
机器学习与神经网络
5、神经网络在机器学习中,神经网络一般指的是“神经网络学习”,是机器学习与神经网络两个学科的交叉部分。所谓神经网络,目前用得最广泛的一个定义是“神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应”。一直沿用至今的“M-P神经元模型”正是对这一结构进行了抽象,也称“阈值逻辑单元“,其中树突对应于输入部分,每个神原创 2017-11-29 18:22:49 · 3967 阅读 · 1 评论 -
大数据(4)YARN
YARN是资源管理系统,理论上支持多种资源,目前支持CPU和内存两种资源YARN产生背景 直接源于MRv1在几个方面的缺陷 扩展性受限 单点故障 难以支持MR之外的计算 多计算框架各自为战,数据共享困难 MR:离线计算框架原创 2017-11-20 17:22:25 · 291 阅读 · 0 评论 -
机器学习第一章:基本概念
第一 方法 1. 基本概念:训练集,测试集,特征值,监督学习,非监督学习,半监督学习,分类,回归2. 概念学习:人类学习概念:鸟,车,计算机 定义:概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数3. 例子:学习 “享受运动" 这一概念: 小明进行水上运动,是否享受运动取决于很多因素原创 2017-09-04 10:49:51 · 228 阅读 · 0 评论