ab1213456-CSDN博客

转载大数据：Hadoop（HDFS 读写数据流程及优缺点）

一、HDFS 写数据流程写的过程：CLIENT（客户端）：用来发起读写请求，并拆分文件成多个 Block；NAMENODE：全局的协调和把控所有的请求，提供 Block 存放在 DataNode 上的地址；DATANODE：负责数据的存储，可以有很多个；客户端想 NameN...

2019-09-02 15:04:00 615

转载大数据：Hadoop（JDK安装、HDFS伪分布式环境搭建、HDFS 的shell操作）

所有的内容都来源与 Hadoop 官方文档一、Hadoop 伪分布式安装步骤　1）JDK安装解压：tar -zxvf jdk-7u79-linux-x64.tar.gz -C ~/app添加到系统环境变量：~/.bash_profileexport JAVA_HOME=/home/hadoop/app/jdk1.7.0_79...

2019-09-02 11:21:00 466

转载大数据：Hadoop（HDFS 的设计思路、设计目标、架构、副本机制、副本存放策略）...

一、HDFS 的设计思路　1）思路切分数据，并进行多副本存储；　2）如果文件只以多副本进行存储，而不进行切分，会有什么问题缺点不管文件多大，都存储在一个节点上，在进行数据处理的时候很难进行并行处理，节点可能成为网络瓶颈，很难进行大数据的处理；存储负载很难均衡，每个节点的利用率很低；二、HDFS 的设计目标...

2019-09-02 09:03:00 934

转载大数据：Hadoop（简介）

一、简介定义：开源的，做分布式存储与分布式计算的平台；功能：搭建大型数据仓库，对PB级数据进行存储、处理、分析、统计等业务；（如日志分析、数据挖掘）Hadoop工作模块Common：提供框架和工具，对其它Hadoop模块的支持；Distributed File System（HDFS：分布式文件系统）：负责数据的存储；YARN：作业的调度及资源...

2019-09-01 21:41:00 487

转载环境搭建：Jupyter Notebook 密码设置

原文参考：关于jupyter notebook密码设置原文博主：01010101一、windows下，打开命令行，重新生成一个jupyter配置文件jupyter notebook --generate-config　　二、修个配置文件找到这个新生成的文件：Windows:C:\Users\USERNAME\....

2019-07-04 09:40:00 846

转载环境搭建：添加 xgboost 到 Anaconda

原文参考：https://blog.csdn.net/lvsehaiyang1993/article/details/80619495原文博主：Big_quant转载于:https://www.cnblogs.com/volcao/p/11125589.html

2019-07-03 11:54:00 168

转载数据科学：pd.DataFrame.drop()

一、功能删除集合中的整行或整列；二、格式df.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')labels：指示标签，表示行标或列标；axis = 0：默认取 0，表示删除集合的行；a...

2019-07-03 08:08:00 1754

转载 Python：基础复习

一、数据类型对象的三大特征：值、身份、类型；　1）数字 Number整型、浮点型只有 int 和 float 两种类型；type(2/2)：float 类型；2/2 == 1.0；type(2//2)：int 类型；2//2 == 1；//：整除；进制2/8/16 进制数表示，前缀：ob、0o、0x；十进制数没有...

2019-06-27 22:49:00 221

转载数据挖掘：（一）数据获取

数据分析：利用统计分析方法，从数据中提取有用的信息，并进行总结和概括的过程。Python 的胶水特性：Python 可以粘合其它语言代码段。一、数据获取手段　1）数据仓库将所有业务数据汇总处理，构成数据仓库（DW）；特点：全部事实的记录（必须是全面的、完备的、尽可能详细的）；可以方便的以不同维度抽取和整理数据（数...

2019-03-06 21:06:00 1067

转载大数据：概述

# 大数据生态圈：Hadoop 生态圈、Spark 生态圈转载于:https://www.cnblogs.com/volcao/p/10485140.html

2019-03-06 18:39:00 159

转载数据挖掘：数据（数据的基本统计描述）

一、概述对应成功的数据预处理而言，把握数据的全貌至关重要。基本统计描述可以用来识别数据的性质，凸显哪些数据值应该视为噪声或离群点。二、中心趋势度量：均值、中位数、众数、中列数也就是度量数据分布的中部或中心位置。（给定一种属性，它的值大部分落在何处）频率：区间内数值的个数。　1）均值（mean）数据集“中心”的最常用、最有效的数值度量是...

2018-12-13 02:31:00 2499

转载数据挖掘：数据（数据对象与属性类型）

一、概述现实中的数据一般有噪声、数量庞大并且可能来自异种数据源。数据集由数据对象组成，一个数据对象代表一个实体。数据对象：又称样本、实例、数据点或对象。数据对象以数据元组的形式存放在数据库中，数据库的行对应于数据对象，列对应于属性。属性是一个数据字段，表示数据对象的特征，在文献中，属性、维度（dimension）、特征（feature）、变量（variance）可...

2018-12-07 00:32:00 4555

转载数据挖掘：基本概念理解

定义数据挖掘：从大量数据中挖掘有趣模式和知识的过程。一、知识发现过程　1）数据预处理　　1、数据清理：消除噪声和删除不一致数据；　　2、数据集成：多种数据源组合在一起。　　3、数据选择：从数据库中提取与分析任务相关的数据。　　4、数据变换：通过汇总或聚集操作，把数据变换和统一成适合挖掘的形式。　2）数据挖掘　　基本步骤、使用智能方法提取数据模式...

2018-12-05 16:38:00 2970

转载 Linux：数据库服务（Mysql安装及链接、远程链接、genelog）

yum search + 服务：查询服务是否存在；yum remove + 服务：卸载服务；使用 service 操作服务时，服务的名称后要加上字符 d，如启动：service mysqld startcat /vir/log/mysqld.log | grep + 关键字：从服务的操作日志中查询内容；history：查看所有输入的历史记录（...

2018-09-09 19:43:00 228

转载 Linux：WebServer（Nginx 虚拟主机配置与伪静态实现）

ps + 查看方式 | grep + 服务/端口/软件等：查看状态；一、基本操作Nginx 多用于商业系统；一个端口只能被一个服务使用；Nginx 可以同时监听多个端口，也就是配置时，一个主机中添加多个端口，浏览器访问该域名时，无论访问哪个端口都对应相同的内容；　1）安装Nginx 默认不在源中，需要先添加 Cen...

2018-09-05 16:47:00 238

转载 Linux：WebServer（Apacge）

/ + 内容：表示在文本中搜索该内容；:q!：不保存直接退出；chown -R imooc:imooc /data：将 /data 文件夹的权限所有人该为用户 imooc；-R：采用递归的方式；/data 文件夹下的所有文件的权限都为用户 imooc；sudo su + 用户名：切换用户；一、简介WebServer：web 服务...

2018-09-04 23:13:00 255

转载 GitHub 上传文件

一、过程及代码原文出处：一步一步教你如何在GitHub上上传自己的项目原文作者：夏雨薇安二、出错error: src refspec master does not match any.error: failed to push some refs to解决方法：原文出处：git push 失败出现er...

2018-08-27 17:41:00 186

转载机器学习：项目流程及方法（以 kaggle 实例解释）

一、项目目录（一）数据加载基础统计特征分类基本分布(scatter)（二）数据分析正态性检验偏离度分析 (hist | scatter)峰度分析 (hist | scatter)分散度分析 (box)特征本身分散度SalePrice 的分散度方差齐次检验方差分析 (bar)scipy...

2018-08-27 00:49:00 580

转载数据科学：待学习的内容

pandas.Series 的一些方法：https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.corr.htmlplt.subplots()：将 plt.figure 创建的画板，分割成多个子图（clos——列、rows——行）；plt.figure(figsize=(15,5))...

2018-08-25 20:41:00 159

转载机器学习：项目流程

原文出处：机器学习项目流程原文作者：wxquare1. 理解实际问题，抽象为机器学习能处理的数学问题理解实际业务场景问题是机器学习的第一步，机器学习中特征工程和模型训练都是非常费时的，深入理解要处理的问题，能避免走很多弯路。明确可以获得的数据，机器学习的目标是分类、回归还是聚类。如果都不是的话，考虑将它们转变为机器学习问题。参考机器学习分类...

2018-08-24 20:51:00 179

转载数据科学：numpy.where() 的用法

原文出处：numpy.where() 用法讲解原创作者：massquantitynumpy.where()有两种用法：1. np.where(condition, x, y)满足条件(condition)，输出x，不满足输出y情景（一）>>> aa = np.arange(10)>>> np.w...

2018-08-24 11:17:00 215

转载数据科学：Pandas 和 Series 的 describe() 方法

一、Pandas 和 Series 的 describe() 方法　1）功能功能：对数据中每一列数进行统计分析；（以“列”为单位进行统计分析）默认只先对“number”的列进行统计分析；一列数据全是“number”count：一列的元素个数；mean：一列数据的平均值；std：一列数据的均方差；（方差的算术平方根，反映...

2018-08-23 18:46:00 2823

转载 Kaggle 比赛项目总结（项目流程）

一、EDA（Exploratory Data Analysis）EDA：也就是探索性的分析数据目的：理解每个特征的意义；知道哪些特征是有用的，这些特征哪些是直接可以用的，哪些需要经过变换才能用，为之后的特征工程做准备；1）每个特征的意义、特征的类型：df.describe()df['Category'].unique...

2018-08-23 13:38:00 905

转载 Linux：常用命令讲解（系统、防火墙、提权与文件传输）

一、系统用户操作指令一般在 Linux 系统中有多个账号，但一般不推荐使用 root 账号，因为 root 账号的权限太大，如果账号泄露会有安全隐患；一般配置软件时也不要在 root 账号下进行；useradd 和 adduser 的区别？（在不同的 Linux 系统中差异不同）所有的用户都存放在 /home 目录中，/home 目录属于家目录；...

2018-08-23 09:34:00 187

转载 Linux：Linux 常用命令讲解（软件、硬件、文件）

一、Linux 常用命令所有的命令操作都是在服务器上进行的自学参考：菜鸟 Linuxman + 命令：查看命令的文档；命令 + --usage：查看命令的文档；命令 + --help：查看命令文档；Ctrl + C：强制退出当前操作；　1）分类软件操作命令：软件的安装、卸载；服务器硬件资源和磁盘操作：有几个 CPU...

2018-08-22 00:24:00 402

转载计算机基础：硬件知识（内存）

一、内存在计算机的组成结构中，有一个很重要的部分，就是存储器。存储器，是用来存储程序和数据的部件，对于计算机来说，有了存储器，才有记忆功能，才能保证正常工作。存储器的种类很多，按其用途可分为主存储器和辅助存储器，主存储器又称内存储器（简称内存，港台称之为记忆体）。内存又称主存，是CPU能直接寻址的存储空间，由半导体器件制成。内存的特点是存取速率快。内存是电...

2018-08-21 22:03:00 318

转载 Linux：远程连接 SSH

一、认识 SSH定义SSH（Secure shell）：安全外壳协议；是建立在应用层基础上的安全协议；通过 SSH 进行服务端连接，不容易被窃取信息；连接服务器ssh 服务器名 + @ + 服务器 Ip功能、特点可靠，专为远程登录会话和其它网络服务提供安全性的协议；有效防止远程管理过程中的信息泄密问题；...

2018-08-21 18:08:00 292

转载 Linux：课程安排、Linux简介、虚拟机安装、课前准备（常用设置和操作）

一、课程安排　1）Linux 的作用商业服务器基本上都是 Linux；开源软件都先支持 Linux；大数据分析、机器学习首先选 Linux；整个互联网地基靠Linux撑起来；Linux 系统是通过命令行交互：通过命令行连接到远程主机上，进行软件安装、数据存储等；Windows 是靠可视化的窗口交互的；　2）课程内容...

2018-08-20 15:01:00 333

转载机器学习：scikit-learn 文档、深入学习机器学习的思路

一、scikit-learn 的文档查阅网页访问 scikit-learn 的文档：scikit-learn.org—— Document —— User Guide：scikit-learn.org—— Document —— APIAPI 下可以直接搜索某一类，然后查看其用法；scikit-learn 的文档相对于机器学习的教...

2018-08-17 09:26:00 302

转载数据结构：图（基础）

一、基本概念# 图：是一种数学模型，表示信息之间的联系；# 图的作用：通过可视化的图，可以比较容易的得出不同的结论；# 图的模型的表示，主要是数据可视化要做的事；# 算法中的图，主要由点和边组成的数学模型，表示真实样本的关系；　　# 节点（Vertex）　　# 边（Edge）# 例1：快递网络，每个点是一个分拨中心，每各边表示分拨中心之间的距...

2018-08-17 09:01:00 214

转载机器学习：集成学习（Ada Boosting 和 Gradient Boosting）

一、集成学习的思路共 3 种思路：Bagging：独立的集成多个模型，每个模型有一定的差异，最终综合有差异的模型的结果，获得学习的最终的结果；Boosting（增强集成学习）：集成多个模型，每个模型都在尝试增强（Boosting）整体的效果；Stacking（堆叠）：集成 k 个模型，得到 k 个预测结果，将 k 个预测结果再传给一个新的算法，得到的结...

2018-08-16 22:55:00 531

转载机器学习：集成学习（随机森林、集成学习参数）

一、基础理解随机森林（Random-Trees）　1）定义定义：使用决策树算法进行集成学习时所得到的集成学习的模型，称为随机森林；只要集成学习的底层算法是决策树算法，最终得到的模型都可以称为随机森林；　2）scikit-learn 中：随机森林分类器及回归器RandomForestClassifier()：分类器Random...

2018-08-16 17:44:00 422

转载机器学习：集成学习（OOB 和关于 Bagging 的更多讨论）

一、oob（Out - of - Bag）定义：放回取样导致一部分样本很有可能没有取到，这部分样本平均大约有 37% ，把这部分没有取到的样本称为 oob 数据集；根据这种情况，不对数据集进行 train_test_split，也就是不适用测试数据集，而使用这部分没有取到的样本做测试 / 验证；　2）oob_score 参数Bagging 取样...

2018-08-16 16:28:00 1995

转载机器学习：集成学习（Bagging、Pasting）

一、集成学习算法的问题可参考：模型集成（Enxemble）博主：独孤呆博思路：集成多个算法，让不同的算法对同一组数据进行分析，得到结果，最终投票决定各个算法公认的最好的结果；弊端：虽然有很多机器学习的算法，但是从投票的角度看，仍然不够多；如果想要有效果更好的投票结果，最好有更多的算法参与；（概率论中称大数定理）方案：创建更多的子模型，...

2018-08-16 11:48:00 551

转载机器学习：集成学习（Soft Voting Classifier）

一、Hard Voting 与 Soft Voting 的对比　1）使用方式voting = 'hard'：表示最终决策方式为 Hard Voting Classifier；voting = 'soft'：表示最终决策方式为 Soft Voting Classifier；　2）思想Hard Voting Classifier：根据少数服从多数来...

2018-08-15 18:02:00 1795

转载机器学习：集成学习（集成学习思想、scikit-learn 中的集成分类器）

一、集成学习的思想集成学习的思路：一个问题（如分类问题），让多种算法参与预测（如下图中的算法都可以解决分类问题），在多个预测结果中，选择出现最多的预测类别做为该样本的最终预测类别；生活中的集成思维：选择电影：10 个人中，如果有8个人觉得这个电影值得看，那么很多人就会跟进这个现象选择看这部电影；二、scikit-learn 中...

2018-08-15 16:33:00 1036

转载机器学习：决策树（决策树解决回归问题、决策树算法的局限性）

一、解决回归问题的思路　1）思路对比解决分类问题：根据模型参数训练结束后，对每个“叶子”节点的样本数据进行投票，规定数量最多的样本的类型为该“叶子”的预测类型；解决回归问题：根据模型参数划分结束后，对每个“叶子”节点处的相应的数据输出值的平均值，作为该“叶子”的预测值；（也就是训练结束后，每个“叶子”处可能有多个数值，取多个数值的平均值作为该“叶子”的预测值，根...

2018-08-15 15:21:00 3057

转载机器学习：决策树（CART 、决策树中的超参数）

老师：非参数学习的算法都容易产生过拟合；一、决策树模型的创建方式、时间复杂度　1）创建方式决策树算法既可以解决分类问题，又可以解决回归问题；CART 创建决策树的方式：根据某一维度 d 和某一个阈值 v 进行二分；（得到的是一个二叉树）scikit-learn 中的创建决策树的方式：CART（Classification And Regres...

2018-08-15 11:29:00 3647

转载机器学习：决策树（使用基尼系数划分节点数据集）

一、基础理解决策树结构中，每个节点处的数据集划分到最后，得到的数据集中一定只包含一种类型的样本；　1）公式k：数据集中样本类型数量；Pi：第 i 类样本的数量占总样本数量的比例　2）实例计算基尼系数3 种情况计算基尼系数：基尼系数的性质与信息熵一样：度量随机变量的不确定度的大小；G 越大，数据的不确...

2018-08-14 22:14:00 3188

转载统计学基础（二）：信息熵、基尼系数

一、信息熵百科：信息熵衡量信息的不确定度；　1）理论提出信息论之父 C. E. Shannon 指出：任何信息都存在冗余，冗余大小与信息中每个符号（数字、字母或单词）的出现概率或者说不确定性有关。Shannon 把信息中排除了冗余后的平均信息量称为“信息熵”。通常，一个信源发送出什么符号是不确定的（不同的...

2018-08-14 22:00:00 1525

空空如也

空空如也