机器学习
文章平均质量分 69
AI专家
待完善。
展开
-
机器学习经典算法之(二十)逻辑回归
机器学习经典算法之(二十)逻辑回归(一)逻辑回归简介:logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,广告投放、邮件判断等领域。该算法可根据已知的一系列因变量估计离散数值(比方说二进制数值 0 或 1 ,是或否,真或假)。简单来说,它通过将数据拟合进一个逻辑函数来预估一个事件出现的概率。因此,它也被叫做逻辑回归。因为它预估的是概率,所以...原创 2018-06-20 15:25:36 · 551 阅读 · 0 评论 -
读《机器学习》笔记
一、绪论:(1) 首先介绍一些基本术语.(2) 假设空间(3) 归纳偏好(4) 发展历程:ILP:归纳逻辑程序设计问题,由于对知识领域进行精化和增强,假设空间太大,复杂度太高,问题规模稍大就难以有效进行学习.符号主义学推理期和知识期:介绍了决策树被经常使用原因;后来九十年度出现了支持向量机SVM以及核方法.连接主义和统计主义之间的发展联系,连接主义一开始占据上风,后来,以统...原创 2018-06-17 20:41:33 · 1433 阅读 · 0 评论 -
读《数据挖掘-实用机器学习技术》笔记(二)
在了解这些数据挖掘技术是如何工作以前,首先必须知道数据中的结构模式是如何表达的。机器学习所能发现的模式有许多不同的表达方式,每一种方式就是一种推断数据输出结构的技术。一旦理解了输出结构的表示方法,就向数据输出结构是如何产生的理解前进了一大步。 决策表和决策树。决策树就是分治思想。 如果是数值属性,一般在一个节点上的测试通常是判断这个数值是否大于或者小于某...原创 2018-06-17 20:39:56 · 1326 阅读 · 0 评论 -
机器学习之十大经典算法(十) 随机森林算法
一、随机森林算法简介: 在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而 "Random Forests" 是他们的商标。 这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的...原创 2018-06-10 14:13:07 · 31728 阅读 · 2 评论 -
数据挖掘的九大定律
数据挖掘通用流程 CRISP-DM 的缔造者之一 Tom Khabaza 总结过在数据挖掘上的九大定律:(1) Business Goals Law:每个数据挖掘解决方案的根源都是有商业目的的。(2) Business Knowledge Law:数据挖掘过程的每一步都需要以商业信息为中心。(3) Data Preparation Law:数据挖掘过程前期的数据准备工作要超过整个过程的一半。(4)...原创 2018-06-24 20:34:53 · 1035 阅读 · 0 评论 -
音频文件读取方式
语言识别是指识别和理解口语的过程。输入音频数据,提取出有用的信息。语音识别有很多实际的应用,语音转换文字、智能客服、声音控制系统、安全系统等。语言识别难题是语言、情绪、语调、噪声和口音等影响。当然,我们首先需要读取音频文件,利用matplotlib绘出音频图像:import numpy as npimport matplotlib.pyplot as pltfrom scipy.io import...原创 2018-06-09 20:34:28 · 3369 阅读 · 0 评论 -
机器学习之十大经典算法(九)EM算法
EM算法EM算法简介:EM 算法是Dempster,Laind,Rubin于1977年提出的求参数极大似然估计的一种方法,它可以从非完整数据集中对参数进行MLE估计,是一种非常简单实用的学习算法。这种方法可以广泛地应用于处理缺损数据、截尾数据以及带有噪声等所谓的不完全数据。具体地说,我们可以利用EM算法来填充样本中的缺失数据、发现隐藏变量的值、估计HMM中的参数、估计有限混合分布中的参数以及可...原创 2018-06-09 14:45:01 · 5152 阅读 · 1 评论 -
ProgressBar设计
由于\r是光标切换到行头,\n光标切换到下行,\r\n就是换行到下行行首。 我们来看网上搜索到的一段程序:class ProgressBar(): def __init__(self, width=50): self.pointer = 0 self.width = width def __call__(self,x): # x in percent ...原创 2018-06-09 14:02:59 · 1510 阅读 · 0 评论 -
机器学习之十大经典算法(二)K-Means算法
(1)K-means简介k-meansalgorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n。假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。 假设有k个群组Si, i=1,2,...,k。μi是群组Si内所有元素xj的质心,或叫中心点。k平均聚类发明于1956年, 该算法最常见的形式是采用被称为劳埃德算法(Lloydal...原创 2018-06-02 14:50:55 · 4670 阅读 · 1 评论 -
统计学习方法总结
转载 2018-06-02 11:19:00 · 133 阅读 · 1 评论 -
基于Item-Based协同过滤推荐
基于Item-Based协同过滤推荐是基于商品本身属性之间的关联分析,最基本的思想是计算物品与物品之间的相似度,通过物品之间的相似度程度进行推荐。 一种思想是通过商品相似度,且已评分进行加权,得到未知商品评分。 如果商品数量多,用户过多,容易产生过适问题。为了解决这个问题,利用简单的两种商品已评分的平均差值方式来简单而有效地进行评估,这种方法称为Slope one...原创 2018-06-02 10:53:37 · 3388 阅读 · 1 评论 -
数据挖掘初探
数据挖掘技术(1)数据挖掘:从数据中挖掘知识。包括数据清理(消除噪声、删除不一致数据)、数据集成(多种数据元集合一起)、数据选择(从数据库中提取与分析任务相关的数据)、数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)、数据挖掘、模式评估和知识表现(可视化表示技术)(2)数据挖掘模式:特征化与区分;频繁模式、关联规则与相关性;预测分析的分类与回归;聚类分析;离群点分析;(3)使用...原创 2018-06-02 09:02:58 · 315 阅读 · 0 评论 -
spyder-python好工具
今天晚上,我系统学习了spyder的环境用法,太好了,关键是调试工具太棒了!Spyder是Python(x,y)的作者为它开发的一个简单的集成开发环境。和其他的Python开发环境相比,它最大的优点就是模仿MATLAB的“工作空间”的功能,可以很方便地观察和修改数组的值。Spyder的界面由许多窗格构成,用户可以根据自己的喜好调整它们的位置和大小。当多个窗格出现在一个区域时,将使用标签页的形式显示...原创 2018-06-02 00:20:02 · 24278 阅读 · 0 评论 -
基于文本模式的主题模式识别
前面几篇博文都介绍了几种不同的分类器,基于分类,好像其他场合应用的监督学习,但有时我们不知道主题分类,这时,相当于无监督学习,如果能实现,先用机器进行主题识别,再加上人工标记,这样就能实现强大的主题库。 下面的时间,我们来探讨一下:(1) 加载数据,包括需要分类的输入数据,还有停用词、词干提取和标记解析等。def load_data(input_file): data = [...原创 2018-06-09 10:07:43 · 3217 阅读 · 0 评论 -
情感分析器设计
情感分析器设计 情感分析是NLP最受欢迎之一,其主要目的就是判断一段文字是否是积极的。当然,有些是中性的。情感分析在营销活动、社交媒体、电子商务客户分析等应用广泛,而这些都间接反馈很多问题,而当数据量很大时,人工无法完成分类,这时机器学习大显身手! 下面,我们来看看如何来进行情感分析器设计: 这里,我们用nltk.corpus下moive_reviews关...原创 2018-06-09 09:12:45 · 950 阅读 · 0 评论 -
性别分类器设计
性别分类器 无论中文还是英文,男女名字上都有很重要的特征,比如:中文:军,兵这样的名字,男性占绝大多数;霞、燕这样的名字,女性占绝大多数;当然英文中:Jack、John为男性较多,amy、Cassie等等,女性占绝大多数,并且结尾是一个很重要特征,而性别与消费行为、消费心理很多方面都息息相关,而当数据量大时,人工无法完成分类,这是机器学习就是一个好帮手! 下面,我们来看...原创 2018-06-09 00:07:00 · 1364 阅读 · 0 评论 -
机器学习之十大经典算法(八) PageRank算法
PageRank算法 (一) PageRank算法简介: Google的创始人之一LarryPage于1998年提出了PageRank,并应用在Google搜索引擎的检索结果排序上,该技术也是Google早期的核心技术之一。 Larry Page是Google的创始首席执行官,2001年4月转任现职产品总裁。他目前仍与Eric Schmidt和Serge...原创 2018-06-08 22:11:43 · 3315 阅读 · 0 评论 -
文本分类器设计
文本分类的目的是将文本文档分为不同的类,这是NLP中非常重要的分析手段。这里将使用一种技术,它基于一种叫作tf-idf的统计数据,它表示词频逆文档频率(term frequency—inversedocument frequency)。这个统计工具有助于理解一个单词在一组文档中对某一个文档的重要性。它可以作为特征向量来做文档分类。实际上就是利用现有数据或者已有模型来预测输入的文档的类别...原创 2018-06-08 21:30:11 · 1542 阅读 · 1 评论 -
机器学习之经典算法(十七)二分Kmeans算法
(1) 二分Kmeans算法简介:二分KMeans(Bisecting KMeans)是基于KMeans算法之上,KMeans聚类结果易受到初始聚类中心点选择的影响。如果不需要选取初始值呢。二分KMeans克服初始中心点影响,各簇中心点的距离较远,这就完全避免了初始聚类中心会选到一个类别上,一定程度上克服了算法陷入局部最优状态。基本思想:首先将所有点作为一个簇,然后将该簇一分为二,每次选...原创 2018-06-17 21:57:06 · 3137 阅读 · 0 评论 -
numpy矩阵运算总结
# -*- coding:utf-8 -*-import numpy as np # 导入模块print ('''创建数组''')arr1 = np.array([2,3,4]) # 通过列表创建数组arr2 = np.array([(1.3,9,2.0),(7,6,1)]) # 通过元组创建数组arr3 = np.zeros((2,3)) # 通过元组(2, 3)生成全零矩...原创 2018-06-17 23:38:47 · 1912 阅读 · 0 评论 -
批量修改python2.7版本print加括弧问题
大家在学习python时,经常遇到python2.7的print不带括弧,但3.6必须要带括弧,版本不一致,需要修改,但是太多了,一定要批量哦。 安装notepad++童靴们,只要打开代码文件,将需要修改的所有文件都打开后,利用如下界面设置进行批量替换,是不是很给力哦,点个赞吧! ...原创 2018-06-17 23:56:52 · 3557 阅读 · 0 评论 -
pandas用法总结
一、生成数据表 1、首先导入pandas库,一般都会用到numpy库,所以我们先导入备用:import numpy as npimport pandas as pd122、导入CSV或者xlsx文件:df = pd.DataFrame(pd.read_csv('name.csv',header=1))df = pd.DataFrame(pd.read_excel('name.xlsx'))1...转载 2018-06-20 13:21:01 · 458 阅读 · 0 评论 -
Scikit-Learn的基本使用
Scikit-Learn是用Python开发的机器学习库,其中包含大量机器学习算法、数据集,是数据挖掘方便的工具。Scikit-Learn的安装可使用pip工具,在安装前需要安装NumPy和SciPy,打开一个命令行中端并输入:$pip install -U scikit-learn基本操作:1.数据加载:对于csv文件,pandas库提供的pandas.read_csv能够快速的加载并根据提供的...转载 2018-06-20 13:18:20 · 709 阅读 · 0 评论 -
sklearn技巧总结
本文转载自:http://www.jianshu.com/p/516f009c0875最近看了《Python数据挖掘入门与实战》,网上有说翻译地不好的,但是说实话,我觉得这本书还是相当不错的。作者Robert Layton是sklearn的开发者之一,书中介绍了很多sklearn使用的技巧和拓展的方法。这里就书中关于sklearn的部分,还有自己学习sklearn的知识,我做一个总结的笔记。另外,...转载 2018-06-20 13:16:07 · 362 阅读 · 0 评论 -
Python w和w+权限的区别
今日上课,有位同学问到:w和w+有何区别呢。 说实话,我们经常只是用一种权限,没用在意之间的区别,实际上,w+具有可读可写权限,而w只有可写权限。 下面上代码: fd=open('d:\\test.txt','w+') fd.write('123') fd.close() 如何这样用,确实两者没有区别,但是在下面就有区别了。 fd=open('d:...原创 2018-06-20 13:12:39 · 21350 阅读 · 0 评论 -
机器学习之经典算法之(二十六) 最大似然估计
(一)、最大似然估计简介: 最大似然法(MaximumLikelihood,ML)也称为最大概似估计,也叫极大似然估计,是一种具有理论性的点估计法,此方法的基本思想是:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,而不是像最小二乘估计法旨在得到使得模型能最好地拟合样本数据的参数估计量。最大似然估计是一种统计方法,它用来求一个...原创 2018-06-26 22:35:00 · 2287 阅读 · 0 评论 -
安装HADOOP集群服务器
1. 规划功能 HOSTNAME IP 说明 Master HDM01 192.168.1.1 Namenode 兼datanode Slave HDS02 192.168.1.2 Datanode Slave HDS03 192.168.1.3 Datanode Client HDC04 192.168.1.4 HADOOP客户端(HDFS/HI...转载 2018-07-01 16:16:05 · 1624 阅读 · 0 评论 -
mysql在linux下的安装
*** 若想使用yum安装,请参考:Centos7使用yum命令安装Mysql ***linux版本:CentOS7 64位 1、下载安装包“mysql-5.6.33-linux-glibc2.5-x86_64.tar.gz” # 安装依赖yum -y install perl perl-devel autoconf libaio 2、把下载的安装包移动到/usr/local/...转载 2018-07-01 16:14:11 · 176 阅读 · 0 评论 -
Linux常用命令大全(非常全!!!)
最近都在和Linux打交道,感觉还不错。我觉得Linux相比windows比较麻烦的就是很多东西都要用命令来控制,当然,这也是很多人喜欢linux的原因,比较短小但却功能强大。我将我了解到的命令列举一下,仅供大家参考: 系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 ...原创 2018-07-01 16:12:42 · 242 阅读 · 0 评论 -
linux---linux根目录下各个目录的用途及含义
以下图片只包含子目录下的一部分。1./bin - 重要的二进制 (binary) 应用程序包含二进制文件,系统的所有用户使用的命令都在这个目录下。 2./boot - 启动 (boot) 配置文件包含引导加载程序相关的文件3./dev - 设备 (device) 文件包含设备文件,包括终端设备,USB或连接到系统的任何设备。4./etc - 配置文件、启动脚本等 (...转载 2018-07-01 16:10:18 · 546 阅读 · 0 评论 -
《数据挖掘-实用机器学习技术》读书笔记
1规则:1R。建立一个只对单个属性进行测试的规则,并进行不同的分支。每一个分支对应一个不同的属性值。分支的类就是训练数据在这个分支上出现最多的类。这种方法能够容易地计算出规则的误差率。只要计算在训练数据上产生的错误,即,统计不属于多数类的实例数量。每个属性都能产生一个不同的规则集,每条规则对应这个属性的每个值。对每一个属性的规则集的误差率进行评估,从中选出性能最好的一个。一个属性对应一个规则集。给...原创 2018-06-19 19:39:06 · 2030 阅读 · 0 评论 -
《数据挖掘技术》读书笔记
离群点检测技术离群点检测又称为异常检测是找出其行为很不同于预期对象的过程。离群点检测和聚类分析是两项高度相关的任务。聚类发现数据集中的多数模式并据此组织数据。而离群点检测则试图捕获那些显著偏离多数模式的异常情况。什么是离群点。假定使用一个给定的统计过程来产生数据对象集。离群点是一个数据对象,它显著不同于其他数据对象。噪声是被观测变量的随机误差或方差。在离群点检测之前删除噪声的。新颖性检测:通过...原创 2018-06-19 19:37:18 · 1420 阅读 · 0 评论 -
读《机器学习》笔记(二)
决策树的划分以后,就是剪枝处理了。如何进行剪枝呢。主动去掉一些分支来降低过拟合的风险。决策树剪枝的基本策略是:预剪枝和后剪枝,预剪枝是指在决策树生成过程中,对每个节点在划分前后进行估计,若当前节点的划分不能带来决策树泛化性能提升,则停止划分,并将当前结点标记为叶节点。后剪枝则是先在训练集生成一棵完整的决策树,然后自底向上地对非叶子节点进行考察,若将该结点对应的子树替换为叶节点能带来决策树泛化性...原创 2018-06-19 19:35:33 · 1249 阅读 · 0 评论 -
机器学习之经典算法之(二十五) 最小二乘法
(一) 最小二乘法简介: 最小二乘法,也叫最小平方法,在古汉语中“平方”称为“二乘”,“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小。最小二乘作为一种损失函数,在这整个解决方案中,最小二乘法演算为每一方程式的结果中,将残差平方和的总和最小化。最重要的应用是在曲线拟合上。最小平方所涵义的最佳拟合,即残差(残差为:观测值与模型提供的拟合值之间的...原创 2018-06-25 20:42:08 · 704 阅读 · 0 评论 -
PyQt5设计界面方法
from PyQt5 import QtCore, QtGui, QtWidgetsfrom PyQt5.QtWidgets import QApplication, QMainWindowimport randomimport timeclass Ui_Form(object): def setupUi(self, Form): Form.setObjectName("For...原创 2018-06-11 00:17:40 · 2397 阅读 · 0 评论 -
自己设计的list
大家在使用Python的list类时,有三个地方不太好用: (1)初始化时不能自动将迭代对象转换为list。 (2)查找数据,如果没找到,会提示异常,不能返回为-1。 (3)删除数据时,重复数据,只能删除一个。 (4)每次append都只能从尾部。自己设计一个list类,可以去掉以上这些bug。代码如下:__author__ = 'jcy'from collecti...原创 2018-06-10 22:20:33 · 289 阅读 · 0 评论 -
隐马尔科夫模型HMM学习最佳范例
<div id="article_content" class="article_content clearfix csdn-tracking-statistics" data-pid="blog" data-mod="popu_307" data-dsm="post"> <link rel="stylesheet&am转载 2018-06-10 15:33:37 · 707 阅读 · 0 评论 -
Pandas处理数据方法
# -*- coding:utf-8 -*-import pandas as pd #为pandas取一个别名pdimport numpy as npfrom numpy import *data = {'id': ['Zhangsan', 'Lisi', 'Wangwu'], 'age': [18, 19, 20], 'income': [6000.5, 500...原创 2018-06-18 08:43:03 · 1125 阅读 · 0 评论 -
机器学习之十大经典算法(一)KNN算法
分类思想比较简单,从训练样本中找出 K 个与其最相近的样本,然后看这 k 个样本中哪个类别的样本多,则待判定的值(或说抽样)就属于这个类别。 缺点: 1)K 值需要预先设定,而不能自适应,一般选择20,如果数据量小的话,可以调参。 2)当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的 K 个邻居中大容量类的...原创 2018-06-01 19:44:19 · 3438 阅读 · 1 评论 -
机器学习之路(二)
今天学习了加州理工学院公开课:机器学习与数据挖掘,第一集主要讲解了学习问题,阐述了机器学习最重要的是模式选择,讲了三点,模式、假设集和数据问题,提出了一个观点是:机器学习之难,难在如何将学习的数据应用到更多领域,我认为实际上就是数据产品,离不开数据本身、数据模型、数据包装(可视化必不可少),对于数据专家来说,一定要学习更多的工具,将实际问题中,选择更好地工具去实现。 今天也学习...原创 2018-06-01 19:22:34 · 1363 阅读 · 1 评论