自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

转载 大数据学习之路-Centos6安装python3.5

Centos 6.8安装python3.5.2因为学习所需,需要用到python3.x的环境,目前Linux系统默认的版本都是python2.x的,还有一些自带的工具需要用到python2.6版本,所以要求的是python3 和 python2 共存,pip2 和** pip3共存,如何安装python3.x的环境?本文是以Python3.5.2**的版本为例。...

2018-11-16 16:59:00 103

转载 大数据学习之路-phoenix

1.phoenix安装------------------ 1.安装phoenix a)下载apache-phoenix-4.10.0-HBase-1.2-bin.tar.gz 下载网址:https://phoenix.apache.org/download.html b)tar 解压压缩包c)复制xxx-server.jar到hbase的lib目录,并且分发...

2018-11-16 13:03:00 193

转载 机器学习之路--机器学习算法一览,应用建议与解决思路

作者:寒小阳时间:2016年1月。出处:http://www.lai18.com/content/2440126.html声明:版权所有,转载请联系作者并注明出处1.引言提起笔来写这篇博客,突然有点愧疚和尴尬。愧疚的是,工作杂事多,加之懒癌严重,导致这个系列一直没有更新,向关注该系列的同学们道个歉。尴尬的是,按理说,机器学习介绍与算法一览应该放在最前面写,详细的应用建议应...

2018-11-10 00:50:00 404

转载 机器学习之路--解决机器学习问题有通法

一个中等水平的数据科学家每天都要处理大量的数据。一些人说超过60%到70%的时间都用于数据清理、数据处理及格式转化,以便于在之后应用机器学习模型。这篇文章的重点便在后者—— 应用机器学习模型(包括预处理的阶段)。此文讨论到的内容来源于我参加的过的数百次的机器学习竞赛。请大家注意这里讨论的方法是大体上适用的,当然还有很多被专业人士使用的非常复杂的方法。接下来会使用到pytho...

2018-11-09 23:51:00 167

转载 机器学习之路--Python

常用数据结构1.list 列表 有序集合classmates = ['Michael', 'Bob', 'Tracy']len(classmates)classmates[0]len(classmates) - 1classmates[-1]classmates[-2]classmates.append('Adam')classmates.inse...

2018-10-21 09:36:00 67

转载 机器学习之路--Pandas

Pandas 是对numpy的封装Pandas 核心结构DataFrame 近似看出矩阵结构panda字符型叫object dataframe其中一行或者一列叫seriesdataframe 里面结构是series series里面的结构又是ndarryayseries 就是可以自定义索引的ndarraystring index可以用来字符串切片常用代码#导...

2018-10-21 09:25:00 75

转载 机器学习之路--seaborn

seaborn是基于plt的封装好的库。有很强的作图功能。1、布局风格设置(图形的style)and 细节设置用matplotlib作图:import numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltx = np.linspace(0, 14, 100)for i in...

2018-10-20 22:42:00 205

转载 机器学习之路--Matplotlib

1.绘制折线图在pandas里面有一种数据类型为datatime ,可以将不规范的日期改为:xxxx-xx-xximport pandas as pdimport numpy as npa = pd.read_csv('UNRATE.csv')a['DATE'] = pd.to_datetime(a['DATE'])print(a.head(12))折...

2018-10-20 22:25:00 113

转载 机器学习之路--Numpy

常用代码ndarray.dtype 数据类型必须是一样的常用代码import numpy #numpy读取文件 world_alcohol = numpy.genfromtxt("world_alcohol.txt", delimiter=",", dtype=str, skip_header=1)#<class 'numpy.ndarray...

2018-10-19 16:33:00 78

转载 机器学习之路--朴素贝叶斯

机器学习实战之朴素贝叶斯一,引言  前两章的KNN分类算法和决策树分类算法最终都是预测出实例的确定的分类结果,但是,有时候分类器会产生错误结果;本章要学的朴素贝叶斯分类算法则是给出一个最优的猜测结果,同时给出猜测的概率估计值。1 准备知识:条件概率公式相信学过概率论的同学对于概率论绝对不会陌生,如果一时觉得生疏,可以查阅相关资料,在这里主要是想贴出条件概率的...

2018-10-03 18:50:00 117

转载 机器学习之路--决策树

机器学习实战之决策树一,引言: 上一章我们讲的kNN算法,虽然可以完成很多分类任务,但它最大的缺点是无法给出数据的内在含义,而决策树的主要优势就在于数据形式非常容易理解。决策树算法能够读取数据集合,决策树的一个重要任务是为了数据所蕴含的知识信息,因此,决策树可以使用不熟悉的数据集合,并从中提取一系列规则,在这些机器根据数据集创建规则是,就是机器学习的过程。...

2018-10-03 18:44:00 105

转载 机器学习之路--KNN算法

机器学习实战之kNN算法 机器学习实战这本书是基于python的,如果我们想要完成python开发,那么python的开发环境必不可少:(1)python3.52,64位,这是我用的python版本(2)numpy 1.11.3,64位,这是python的科学计算包,是python的一个矩阵类型,包含数组和矩阵,提供了大量的矩阵处理函数,使运算更加容易,...

2018-10-03 18:43:00 114

转载 大数据学习之路-其他学习总结

1.XFTP 建立连接的时候要选择SFTP2.关于如何删除Linux自带的JDK https://www.linuxidc.com/Linux/2016-12/138043.htm1.#java -version 查看jdk版本2.#rpm -qa |grep jdk 查看jdk安装包3.#rpm -e --nodeps 包名 删除相应的包名4.#java -...

2018-09-22 18:28:00 128

转载 大数据学习之路-hdfs

1、什么是hadoophadoop中有3个核心组件:分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上分布式运算编程框架:MAPREDUCE —— 实现在很多机器上分布式并行运算分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序,并合理分配运算资源2、hdfs整体运行机制hdfs:分布式文件系统hdfs有着文件系统共同...

2018-09-22 18:14:00 125

转载 大数据学习之路-简介

1、什么是大数据基本概念《数据处理》在互联网技术发展到现今阶段,大量日常、工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前的传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的软件工具应运而生,这就是大数据!处理海量数据的核心技术:海量数据存储:分布式海量数据运算:分布式这些核心技术的实现是不需要用户...

2018-09-22 18:00:00 155

转载 Linux学习之路--shell学习

shell基础知识什么是ShellShell是命令解释器(command interpreter),是Unix操作系统的用户接口,程序从用户接口得到输入信息,shell将用户程序及其输入翻译成操作系统内核(kernel)能够识别的指令,并且操作系统内核执行完将返回的输出通过shell再呈现给用户,下图所示用户、shell和操作系统的关系:Shell也是一门编程语言...

2018-09-19 09:48:00 122

转载 Linux学习之路--简介

1 Linux简介UNIX与Linux发展史Unix在1969年,美国贝尔实验室的肯汤普森在DEC PDP-7机器上开发出了UNIX系统。Linux出现于1991年,是由芬兰赫尔辛基大学学生李纳斯•托瓦兹(Linus Torvalds)和后来加入的众多爱好者共同开发完成 。企鹅图标的一个说法是,极地企鹅不属于任何国家不会有版权纠纷。Linux介绍 Linux是一种...

2018-09-14 19:41:00 97

转载 Linux学习之路--常用命令

#ls 显示文件信息#ll显示文件(不包括隐藏文件)具体信息 等于 #ls -l#ll -a显示所有文件(包括隐藏文件)具体信息#ll -htr aa 显示最近修改的文件 h是易读的#mkdir -p nvsheng/{yangmi,yanglan} 一次性创建两个文件$ su – root#cd /切换到根目录#cd ..回到上一级目录#...

2018-09-14 19:37:00 112

转载 Linux学习之路--常用配置

1.修改IP地址$vi /etc/sysconfig/network-scripts/ifcfg-eth0BOOTPROTO=staticONBOOT=yesIPADDR=192.168.2.129#注意一般修改第四位 192.168.2.1 为物理机 192.168.2.2一般为网关NETMASK=255.255.255.0GATEWAY=192.168.2.2DNS1=1...

2018-09-14 19:36:00 67

转载 Linux学习之路--常用命令讲解

Linux常用命令讲解1.命令格式:命令 [-选项] [参数]超级用户的提示符是#一般用户的提示符是$如:ls -la /usr说明: 大部分命令遵从该格式多个选项时,可以一起写 eg:ls –l –a ls –la简化选项与完整选项(注:并非所有选项都可使用完整选项) eg:ls –all  ls –aeg:#ls 显示文件信息#ll 显示文件(...

2018-09-14 19:35:00 801

转载 人工智能学习-第二天

2018/6/6训练误差/经验误差:学习器在训练集上的误差泛华误差:学习器在新样本上的误差过拟合/过配:学习能力过强欠拟合/欠配:学习能力过弱留出法:数据集分为一个训练集和测试集,然后保持分层采样标准进行泛化误差估计。一般用大约2/3~4/5样本用于训练。交叉验证/k折交叉验证:将数据集分为K个大小相似的互斥子集,然后相互进行验证,一般K为10,即D1-D9作为训...

2018-06-06 17:10:00 108

转载 人工智能学习-第一天

2018/5/31基本术语标记:关于样本结果的信息,例如好瓜样例:拥有标记信息的示例 和样本有区别分类:预测的是离散值,例如好瓜,坏瓜,此类学习任务回归:预测的是连续值,例如西瓜成熟度0.95,0.37泛化能力:学得模型适用于新样本的能力特征向量:因为样本属性可以张成一个属性空间,而每个样本都在这个属性空间里面能被表示,所以我们也用特征向量来表示一个样本假...

2018-05-31 22:58:00 69

转载 人工智能学习-专业英语单词积累

2018/5/31machine learning 机器学习 learning algorithm 学习算法 feature 特征 attribute 属性 attribute space 样本空间 sample space 样板空间data set 数据集 instance 示例 sample 样板 feature vector 特征向量 dimensionality 维度 h...

2018-05-31 21:55:00 752

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除