自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(178)
  • 收藏
  • 关注

转载 大数据:Hadoop(HDFS 读写数据流程及优缺点)

一、HDFS 写数据流程写的过程:CLIENT(客户端):用来发起读写请求,并拆分文件成多个 Block;NAMENODE:全局的协调和把控所有的请求,提供 Block 存放在 DataNode 上的地址;DATANODE:负责数据的存储,可以有很多个;客户端想 NameN...

2019-09-02 15:04:00 515

转载 大数据:Hadoop(JDK安装、HDFS伪分布式环境搭建、HDFS 的shell操作)

所有的内容都来源与 Hadoop 官方文档一、Hadoop 伪分布式安装步骤 1)JDK安装解压:tar -zxvf jdk-7u79-linux-x64.tar.gz -C ~/app添加到系统环境变量:~/.bash_profileexport JAVA_HOME=/home/hadoop/app/jdk1.7.0_79...

2019-09-02 11:21:00 372

转载 大数据:Hadoop(HDFS 的设计思路、设计目标、架构、副本机制、副本存放策略)...

一、HDFS 的设计思路 1)思路切分数据,并进行多副本存储; 2)如果文件只以多副本进行存储,而不进行切分,会有什么问题缺点不管文件多大,都存储在一个节点上,在进行数据处理的时候很难进行并行处理,节点可能成为网络瓶颈,很难进行大数据的处理;存储负载很难均衡,每个节点的利用率很低;二、HDFS 的设计目标...

2019-09-02 09:03:00 762

转载 大数据:Hadoop(简介)

一、简介定义:开源的,做分布式存储与分布式计算的平台;功能:搭建大型数据仓库,对PB级数据进行存储、处理、分析、统计等业务;(如日志分析、数据挖掘)Hadoop工作模块Common:提供框架和工具,对其它Hadoop模块的支持;Distributed File System(HDFS:分布式文件系统):负责数据的存储;YARN:作业的调度及资源...

2019-09-01 21:41:00 395

转载 环境搭建:Jupyter Notebook 密码设置

原文参考:关于jupyter notebook密码设置原文博主:01010101一、windows下,打开命令行,重新生成一个jupyter配置文件jupyter notebook --generate-config  二、修个配置文件找到这个新生成的文件:Windows:C:\Users\USERNAME\....

2019-07-04 09:40:00 770

转载 环境搭建:添加 xgboost 到 Anaconda

原文参考:https://blog.csdn.net/lvsehaiyang1993/article/details/80619495原文博主:Big_quant转载于:https://www.cnblogs.com/volcao/p/11125589.html

2019-07-03 11:54:00 113

转载 数据科学:pd.DataFrame.drop()

一、功能删除集合中的整行或整列;二、格式df.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')labels:指示标签,表示行标或列标;axis = 0:默认取 0,表示删除集合的行;a...

2019-07-03 08:08:00 1621

转载 Python:基础复习

一、数据类型对象的三大特征:值、身份、类型; 1)数字 Number整型、浮点型只有 int 和 float 两种类型;type(2/2):float 类型;2/2 == 1.0;type(2//2):int 类型;2//2 == 1;//:整除;进制2/8/16 进制数表示,前缀:ob、0o、0x;十进制数没有...

2019-06-27 22:49:00 164

转载 数据挖掘:(一)数据获取

数据分析:利用统计分析方法,从数据中提取有用的信息,并进行总结和概括的过程。Python 的胶水特性:Python 可以粘合其它语言代码段。一、数据获取手段 1)数据仓库将所有业务数据汇总处理,构成数据仓库(DW);特点:全部事实的记录(必须是全面的、完备的、尽可能详细的);可以方便的以不同维度抽取和整理数据(数...

2019-03-06 21:06:00 969

转载 大数据:概述

# 大数据生态圈:Hadoop 生态圈、Spark 生态圈转载于:https://www.cnblogs.com/volcao/p/10485140.html

2019-03-06 18:39:00 108

转载 数据挖掘:数据(数据的基本统计描述)

一、概述对应成功的数据预处理而言,把握数据的全貌至关重要。基本统计描述可以用来识别数据的性质,凸显哪些数据值应该视为噪声或离群点。二、中心趋势度量:均值、中位数、众数、中列数也就是度量数据分布的中部或中心位置。(给定一种属性,它的值大部分落在何处)频率:区间内数值的个数。 1)均值(mean)数据集“中心”的最常用、最有效的数值度量是...

2018-12-13 02:31:00 2289

转载 数据挖掘:数据(数据对象与属性类型)

一、概述现实中的数据一般有噪声、数量庞大并且可能来自异种数据源。数据集由数据对象组成,一个数据对象代表一个实体。数据对象:又称样本、实例、数据点或对象。数据对象以数据元组的形式存放在数据库中,数据库的行对应于数据对象,列对应于属性。属性是一个数据字段,表示数据对象的特征,在文献中,属性、维度(dimension)、特征(feature)、变量(variance)可...

2018-12-07 00:32:00 4127

转载 数据挖掘:基本概念理解

定义数据挖掘:从大量数据中挖掘有趣模式和知识的过程。一、知识发现过程 1)数据预处理  1、数据清理:消除噪声和删除不一致数据;  2、数据集成:多种数据源组合在一起。  3、数据选择:从数据库中提取与分析任务相关的数据。  4、数据变换:通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式。 2)数据挖掘  基本步骤、使用智能方法提取数据模式...

2018-12-05 16:38:00 2776

转载 Linux:数据库服务(Mysql安装及链接、远程链接、genelog)

yum search + 服务:查询服务是否存在;yum remove + 服务:卸载服务;使用 service 操作服务时,服务的名称后要加上字符 d,如启动:service mysqld startcat /vir/log/mysqld.log | grep + 关键字:从服务的操作日志中查询内容;history:查看所有输入的历史记录(...

2018-09-09 19:43:00 161

转载 Linux:WebServer(Nginx 虚拟主机配置与伪静态实现)

ps + 查看方式 | grep + 服务/端口/软件等:查看状态;一、基本操作Nginx 多用于商业系统;一个端口只能被一个服务使用;Nginx 可以同时监听多个端口,也就是配置时,一个主机中添加多个端口,浏览器访问该域名时,无论访问哪个端口都对应相同的内容; 1)安装Nginx 默认不在源中,需要先添加 Cen...

2018-09-05 16:47:00 180

转载 Linux:WebServer(Apacge)

/ + 内容:表示在文本中搜索该内容;:q!:不保存直接退出;chown -R imooc:imooc /data:将 /data 文件夹的权限所有人该为用户 imooc;-R:采用递归的方式;/data 文件夹下的所有文件的权限都为用户 imooc;sudo su + 用户名:切换用户;一、简介WebServer:web 服务...

2018-09-04 23:13:00 195

转载 GitHub 上传文件

一、过程及代码原文出处:一步一步教你如何在GitHub上上传自己的项目原文作者:夏雨薇安二、出错error: src refspec master does not match any.error: failed to push some refs to解决方法:原文出处:git push 失败出现er...

2018-08-27 17:41:00 128

转载 机器学习:项目流程及方法(以 kaggle 实例解释)

一、项目目录(一)数据加载基础统计特征分类基本分布(scatter)(二)数据分析正态性检验偏离度分析 (hist | scatter)峰度分析 (hist | scatter)分散度分析 (box)特征本身分散度SalePrice 的分散度方差齐次检验方差分析 (bar)scipy...

2018-08-27 00:49:00 401

转载 数据科学:待学习的内容

pandas.Series 的一些方法:https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.corr.htmlplt.subplots():将 plt.figure 创建的画板,分割成多个子图(clos——列、rows——行);plt.figure(figsize=(15,5))...

2018-08-25 20:41:00 93

转载 机器学习:项目流程

原文出处:机器学习项目流程原文作者:wxquare1. 理解实际问题,抽象为机器学习能处理的数学问题 理解实际业务场景问题是机器学习的第一步,机器学习中特征工程和模型训练都是非常费时的,深入理解要处理的问题,能避免走很多弯路。明确可以获得的数据,机器学习的目标是分类、回归还是聚类。如果都不是的话,考虑将它们转变为机器学习问题。参考机器学习分类...

2018-08-24 20:51:00 118

转载 数据科学:numpy.where() 的用法

原文出处:numpy.where() 用法讲解原创作者:massquantitynumpy.where()有两种用法:1. np.where(condition, x, y)满足条件(condition),输出x,不满足输出y情景(一)>>> aa = np.arange(10)>>> np.w...

2018-08-24 11:17:00 148

转载 数据科学:Pandas 和 Series 的 describe() 方法

一、Pandas 和 Series 的 describe() 方法 1)功能功能:对数据中每一列数进行统计分析;(以“列”为单位进行统计分析)默认只先对“number”的列进行统计分析;一列数据全是“number”count:一列的元素个数;mean:一列数据的平均值;std:一列数据的均方差;(方差的算术平方根,反映...

2018-08-23 18:46:00 2729

转载 Kaggle 比赛项目总结(项目流程)

一、EDA(Exploratory Data Analysis)EDA:也就是探索性的分析数据目的:理解每个特征的意义;知道哪些特征是有用的,这些特征哪些是直接可以用的,哪些需要经过变换才能用,为之后的特征工程做准备;1)每个特征的意义、特征的类型:df.describe()df['Category'].unique...

2018-08-23 13:38:00 784

转载 Linux:常用命令讲解(系统、防火墙、提权与文件传输)

一、系统用户操作指令一般在 Linux 系统中有多个账号,但一般不推荐使用 root 账号,因为 root 账号的权限太大,如果账号泄露会有安全隐患;一般配置软件时也不要在 root 账号下进行;useradd 和 adduser 的区别?(在不同的 Linux 系统中差异不同)所有的用户都存放在 /home 目录中,/home 目录属于家目录;...

2018-08-23 09:34:00 139

转载 Linux:Linux 常用命令讲解(软件、硬件、文件)

一、Linux 常用命令所有的命令操作都是在服务器上进行的自学参考:菜鸟 Linuxman + 命令:查看命令的文档;命令 + --usage:查看命令的文档;命令 + --help:查看命令文档;Ctrl + C:强制退出当前操作; 1)分类软件操作命令:软件的安装、卸载;服务器硬件资源和磁盘操作:有几个 CPU...

2018-08-22 00:24:00 303

转载 计算机基础:硬件知识(内存)

一、内存在计算机的组成结构中,有一个很重要的部分,就是存储器。存储器,是用来存储程序和数据的部件,对于计算机来说,有了存储器,才有记忆功能,才能保证正常工作。存储器的种类很多,按其用途可分为主存储器和辅助存储器,主存储器又称内存储器(简称内存,港台称之为记忆体)。内存又称主存,是CPU能直接寻址的存储空间,由半导体器件制成。内存的特点是存取速率快。内存是电...

2018-08-21 22:03:00 251

转载 Linux:远程连接 SSH

一、认识 SSH定义SSH(Secure shell):安全外壳协议;是建立在应用层基础上的安全协议;通过 SSH 进行服务端连接,不容易被窃取信息;连接服务器ssh 服务器名 + @ + 服务器 Ip功能、特点可靠,专为远程登录会话和其它网络服务提供安全性的协议;有效防止远程管理过程中的信息泄密问题;...

2018-08-21 18:08:00 235

转载 Linux:课程安排、Linux简介、虚拟机安装、课前准备(常用设置和操作)

一、课程安排 1)Linux 的作用商业服务器基本上都是 Linux;开源软件都先支持 Linux;大数据分析、机器学习首先选 Linux;整个互联网地基靠Linux撑起来;Linux 系统是通过命令行交互:通过命令行连接到远程主机上,进行软件安装、数据存储等;Windows 是靠可视化的窗口交互的; 2)课程内容...

2018-08-20 15:01:00 236

转载 机器学习:scikit-learn 文档、深入学习机器学习的思路

一、scikit-learn 的文档查阅网页访问 scikit-learn 的文档:scikit-learn.org—— Document —— User Guide:scikit-learn.org—— Document —— APIAPI 下可以直接搜索某一类,然后查看其用法;scikit-learn 的文档相对于机器学习的教...

2018-08-17 09:26:00 239

转载 数据结构:图(基础)

一、基本概念# 图:是一种数学模型,表示信息之间的联系;# 图的作用:通过可视化的图,可以比较容易的得出不同的结论;# 图的模型的表示,主要是数据可视化要做的事;# 算法中的图,主要由点和边组成的数学模型,表示真实样本的关系;  # 节点(Vertex)  # 边(Edge)# 例1:快递网络,每个点是一个分拨中心,每各边表示分拨中心之间的距...

2018-08-17 09:01:00 156

转载 机器学习:集成学习(Ada Boosting 和 Gradient Boosting)

一、集成学习的思路共 3 种思路:Bagging:独立的集成多个模型,每个模型有一定的差异,最终综合有差异的模型的结果,获得学习的最终的结果;Boosting(增强集成学习):集成多个模型,每个模型都在尝试增强(Boosting)整体的效果;Stacking(堆叠):集成 k 个模型,得到 k 个预测结果,将 k 个预测结果再传给一个新的算法,得到的结...

2018-08-16 22:55:00 426

转载 机器学习:集成学习(随机森林、集成学习参数)

一、基础理解随机森林(Random-Trees) 1)定义定义:使用决策树算法进行集成学习时所得到的集成学习的模型,称为随机森林;只要集成学习的底层算法是 决策树算法,最终得到的模型都可以称为随机森林; 2)scikit-learn 中:随机森林分类器及回归器RandomForestClassifier():分类器Random...

2018-08-16 17:44:00 301

转载 机器学习:集成学习(OOB 和 关于 Bagging 的更多讨论)

一、oob(Out - of - Bag)定义:放回取样导致一部分样本很有可能没有取到,这部分样本平均大约有 37% ,把这部分没有取到的样本称为 oob 数据集;根据这种情况,不对数据集进行 train_test_split,也就是不适用 测试数据集,而使用这部分没有取到的样本做测试 / 验证; 2)oob_score 参数Bagging 取样...

2018-08-16 16:28:00 1751

转载 机器学习:集成学习(Bagging、Pasting)

一、集成学习算法的问题可参考:模型集成(Enxemble)博主:独孤呆博思路:集成多个算法,让不同的算法对同一组数据进行分析,得到结果,最终投票决定各个算法公认的最好的结果;弊端:虽然有很多机器学习的算法,但是从投票的角度看,仍然不够多;如果想要有效果更好的投票结果,最好有更多的算法参与;(概率论中称大数定理)方案:创建更多的子模型,...

2018-08-16 11:48:00 426

转载 机器学习:集成学习(Soft Voting Classifier)

一、Hard Voting 与 Soft Voting 的对比 1)使用方式voting = 'hard':表示最终决策方式为 Hard Voting Classifier;voting = 'soft':表示最终决策方式为 Soft Voting Classifier; 2)思想Hard Voting Classifier:根据少数服从多数来...

2018-08-15 18:02:00 1660

转载 机器学习:集成学习(集成学习思想、scikit-learn 中的集成分类器)

一、集成学习的思想集成学习的思路:一个问题(如分类问题),让多种算法参与预测(如下图中的算法都可以解决分类问题),在多个预测结果中,选择出现最多的预测类别做为该样本的最终预测类别;生活中的集成思维:选择电影:10 个人中,如果有8个人觉得这个电影值得看,那么很多人就会跟进这个现象选择看这部电影;二、scikit-learn 中...

2018-08-15 16:33:00 964

转载 机器学习:决策树(决策树解决回归问题、决策树算法的局限性)

一、解决回归问题的思路 1)思路对比解决分类问题:根据模型参数训练结束后,对每个“叶子”节点的样本数据进行投票,规定数量最多的样本的类型为该“叶子”的预测类型;解决回归问题:根据模型参数划分结束后,对每个“叶子”节点处 的相应的数据输出值的平均值,作为该“叶子”的预测值;(也就是训练结束后,每个“叶子”处可能有多个数值,取多个数值的平均值作为该“叶子”的预测值,根...

2018-08-15 15:21:00 2916

转载 机器学习:决策树(CART 、决策树中的超参数)

老师:非参数学习的算法都容易产生过拟合;一、决策树模型的创建方式、时间复杂度 1)创建方式决策树算法既可以解决分类问题,又可以解决回归问题;CART 创建决策树的方式:根据某一维度 d 和某一个 阈值 v 进行二分;(得到的是一个二叉树)scikit-learn 中的创建决策树的方式:CART(Classification And Regres...

2018-08-15 11:29:00 3392

转载 机器学习:决策树(使用基尼系数划分节点数据集)

一、基础理解决策树结构中,每个节点处的数据集划分到最后,得到的数据集中一定只包含一种类型的样本; 1)公式k:数据集中样本类型数量;Pi:第 i 类样本的数量占总样本数量的比例 2)实例计算基尼系数3 种情况计算基尼系数:基尼系数的性质与信息熵一样:度量随机变量的不确定度的大小;G 越大,数据的不确...

2018-08-14 22:14:00 3004

转载 统计学基础(二):信息熵、基尼系数

一、信息熵百科:信息熵衡量信息的不确定度; 1)理论提出信息论之父 C. E. Shannon 指出:任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。Shannon 把信息中排除了冗余后的平均信息量称为“信息熵”。通常,一个信源发送出什么符号是不确定的(不同的...

2018-08-14 22:00:00 1338

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除