自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ChanZany的博客

滴水穿石,天道酬勤

  • 博客(95)
  • 资源 (9)
  • 收藏
  • 关注

原创 记Matplotlib科学绘图包使用心得

记Matplotlib科学绘图包使用心得内容双坐标绘图设置字体大小和格式设置为紧凑显式图片以及保存为eps格式内容双坐标绘图def plot_compare2(): n = 200 fig = plt.figure() requests = Counter(generateRequestData(n)) sortedKeys = sorted(requests) ax1 = fig.add_subplot(111) content_property

2021-04-01 09:34:21 361

原创 springboot 2.x 构建遇到的问题和解决方案

下载springboot 2.x下载地址:https://github.com/spring-projects/spring-boot找到对应的版本,建议2.1.x使用git clone remoteAddress 将项目克隆到本地问题:下载速度缓慢解决方案fork springboot到自己的仓库使用gitee从github导入springboot克隆项目到本地构建springboot 2.x找到clone的项目并进入项目的根目录【可选】编辑pom.xml,在15行

2020-12-11 16:04:01 645 1

原创 Git-构建你的代码仓库

Git快速入门Git是目前全世界最通用的分布式版本控制系统Git与GitHub以及Gittee有非常好的对接文章目录Git快速入门前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言在学习Git之前,先要了解分布式版本管理系统GIT能干什么协同开发冲突解决版本记录历史追查代码备份版本还原权限管理分支管理代码审查一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库

2020-09-17 01:05:23 453

原创 一天时间搞定scala[仅针对spark开发]

一天时间搞定scala[仅针对spark开发]好久没写博客了,天气一热身上开始出现各种小毛病,苦不堪言,也希望广大程序员同胞能珍重身体,坚持锻炼。想学spark,但是又觉得又要学一门scala很繁琐?本着先学会用,再学会原理的心态,我花了一周时间整理了这篇博客,很干但是很高效(1天时间基本可以学完所有spark开发所需的scala知识,前提是掌握了java),希望对大家能够有些许参考价值。文章目录一天时间搞定scala[仅针对spark开发]scala是基于JVM的语言六大特性1. 与java无缝整合

2020-08-10 16:50:02 340

原创 pytorch系列笔记二:批处理与优化器选择

pytorch系列笔记二:批处理与优化器选择批处理批处理对于神经网络的训练是必不可少的,通过对有限数据的shuffle并重新送入模型,因为训练的数据更多了,所以可以提高模型的训练效果在Pytorch中要使用批处理需要进行如下步骤:利用数据集创建一个TensorDataset:#### Download and construct CIFAR-10 dataset.train_dataset = torchvision.datasets.CIFAR10(root='../data/',

2020-07-21 11:00:37 363

原创 pytorch系列笔记一:初识Pytorch

pytorch系列笔记一:初识Pytorch文章目录pytorch系列笔记一:初识Pytorchpytorch安装pytorch.tensor vs numpy.ndarray数学运算矩阵运算Tensor的创建自定义tensor的创建随机样本的创建:初始化张量的创建Magic Metrix的创建tensor的属性Autograd:自动求导Pytorch的激励函数回归模型搭建分类模型搭建快速搭建法保存/提取模型pytorch-tutorial参考致谢pytorch安装annaconda下安装pytorc

2020-07-20 22:03:06 395

原创 机器学习系列笔记十三: 集成学习/模型聚合

机器学习系列笔记十三: 集成学习/模型聚合文章目录机器学习系列笔记十三: 集成学习/模型聚合什么是集成学习VotingHard Voting模拟实现Hard Voting 集成学习使用Voting ClassifierSoft Voting使用Soft Voting实现集成学习Bagging对Bagging的使用OOB与关于Bagging的更多讨论随机森林与Extra-Trees随机森林使用随机森林Extra-Trees使用Extra-Trees集成学习解决回归问题BoostingAdaBoost使用Ad

2020-07-19 20:18:34 1217

原创 机器学习系列笔记十二: 决策树

机器学习系列笔记十一: 决策树文章目录机器学习系列笔记十一: 决策树Intro信息熵使用信息熵寻找最优划分基尼系数使用基尼系数寻找最佳划分基尼系数与信息熵的对比CART与决策树中的超参数决策树的超参数决策树解决回归问题决策树的局限性缺点改进措施总结参考致谢Intro以招聘机器学习算法工程师为例子,对于一个应聘者的信息输入,决策的流程可以一个树结构来表示:通过多级判断产生多个判断条件作为根节点,多个结果作为叶子节点,这样的过程就叫做决策树。通常我们把决策树的深度定义为获取最终结果的最大所需判断数。在

2020-07-19 01:32:06 286

原创 机器学习系列笔记十一: 支持向量机SVM

机器学习系列笔记十一: 支持向量机SVM文章目录机器学习系列笔记十一: 支持向量机SVMHard margin SVMSoft Margin和SVM的正则化SVM的使用scikit-learn中的SVMSVM中使用多项式特征使用多项式核函数的SVM核函数Kernel高斯核函数RBF kernel直观理解高斯核函数scikit-learn中的RBF核函数SVM思想解决回归问题具体使用总结参考致谢Hard margin SVM在分类问题中,决策边界决定了模型的预测结果,为了提高模型的泛化能力,我们通常期望

2020-07-14 23:02:42 379

原创 机器学习系列笔记十: 分类算法的衡量

机器学习系列笔记十: 分类算法的衡量文章目录机器学习系列笔记十: 分类算法的衡量分类准确度的问题混淆矩阵Confusion Matrix精准率和召回率实现混淆矩阵、精准率和召唤率scikit-learn中的混淆矩阵,精准率与召回率F1 ScoreF1 Score的实现Precision-Recall的平衡更改判定阈值改变平衡点Precision-Recall 曲线ROC 曲线ROC曲线的绘制scikit-learn 中的ROC多分类问题中的混淆矩阵总结参考致谢分类准确度的问题对于前面总结的所有分类算法

2020-07-12 23:59:05 317 1

原创 大数据之spark学习记录二: Spark的安装与上手

大数据之spark学习记录二: Spark的安装与上手文章目录大数据之spark学习记录二: Spark的安装与上手Spark安装本地模式Standalone 模式基本配置步骤1: 复制 spark, 并命名为spark-standalone步骤2: 进入配置文件目录conf, 配置spark-evn.sh步骤3: 修改 slaves 文件, 添加 worker 节点步骤4: 分发spark-standalone步骤5: 在master节点启动 Spark 集群配置 Spark 任务历史服务器(Stand

2020-07-12 00:31:24 328

原创 大数据之spark学习记录一 Intro

大数据之spark学习记录一: Intro文章目录大数据之spark学习记录一: Introspark与hadoop(MR)的对比和介绍Hadoopsparkspark与hadoop(MR)的对比和介绍Hadoop1.X 版本从架构的角度存在很多的问题NameNode是单点操作,所以容易出现单点故障,制约了HDFS的发展NameNode的内存限制也影响了HDFS的发展MapReduce是一种基于数据集的工作模式,面向数据,这种工作模式一般是从存储上加载数据集,然后操作数据集,最好将结果写入

2020-07-12 00:11:16 147

原创 Scala学习day01:scala开发环境快速搭建

Scala学习day01:scala开发环境快速搭建文章目录Scala学习day01:scala开发环境快速搭建为什么学习ScalaScala与Java的关系Scala语言特点Scala环境搭建WindowsLinuxScala开发插件配置编写scala程序为什么学习Scala1)Spark—新一代内存级大数据计算框架,是大数据的重要内容。2)Spark就是使用Scala编写的。因此为了更好的学习Spark, 需要掌握Scala这门语言。3)Spark的兴起,带动了Scala语言的发展。Scal

2020-07-10 16:39:05 256

原创 机器学习系列笔记九: 逻辑回归

机器学习系列笔记九: 逻辑回归Intro为了说明逻辑回归的重要性,先post一张图:这是kaggle在2017年对工作最常用的数据科学方法的排名统计,可以看到逻辑回归LogicRegression是各个行业中(除了军事和安全领域)最为常用的数据科学方法。这也说明对于机器学习算法并不见得是越复杂越好的,要根据实际的使用场景选择最合适的算法。没有免费午餐定理:并没有哪个算法比哪个算法更好,只是在特定的场景中的效果有差别。那么逻辑回归是什么?其实如果修过吴恩达的机器学习课程的同学都不陌生,在此做一

2020-07-09 22:18:32 464

原创 机器学习系列笔记八:多项式回归[下]

机器学习系列笔记八:多项式回归[下]在上一节,我们引入了多项式回归,并通过一些简单的编程来实现了它,然后,我们通过实验分析出了在回归问题中常见的两种问题:过拟合与欠拟合。我们提到,测试集的意义就在于在投入生产环境之前就能发现这些问题,但是实际上仅凭测试集也是无法完全发现这个问题的。所以就有了下面的交叉验证的方案。同时,即便能识别出过拟合、欠拟合,但是如何解决这两个问题尤其是过拟合问题才是我们的根本目的,所以就有了下面的模型正则化方案。我们希望通过在这一小节学会与更多与模型调试相关的技能。文章目录

2020-07-06 19:50:13 365

原创 机器学习系列笔记七:多项式回归[上]

机器学习系列笔记七:多项式回归[上]文章目录机器学习系列笔记七:多项式回归[上]Intro简单实现scikit-learn中的多项式回归和Pipeline关于PolynomialFeaturesPipeline过拟合与欠拟合概念引入train test split的意义学习曲线绘制学习曲线Intro相比较线性回归所拟合的直线,多线性回归可以拟合的曲线更具有表达能力,能够有效提高模型的精度。区别如下图所示。多项式回归在回归分析中很重要,因为任意一个函数至少在一个较小的范围内都可以用多项式任意逼近,因

2020-07-05 23:19:42 640

原创 机器学习系列笔记六:主成分分析PCA[下]

机器学习系列笔记六:主成分分析PCA[下]文章目录机器学习系列笔记六:主成分分析PCA[下]scikit-learn中的PCA基本使用进阶操作对比实验设置合理的n_components通过PCA完成对数据的可视化测试MNIST数据集使用PCA对数据进行降噪处理实验引入使用案例PCA生成特征脸总结参考在上一节,我们自定义实现了PCA主成分分析法,并通过多个测试验证了算法的有效性,当然与scikit-learn或其他机器学习框架封装的PCA算法相比差的很远,但也足以让我们理解PCA的原理。在这一节,我们就

2020-07-04 21:15:51 589

原创 机器学习系列笔记五:主成分分析PCA[上]

机器学习系列笔记五:主成分分析PCA[上]文章目录机器学习系列笔记五:主成分分析PCA[上]IntroductionPCA的原理特征降维的引入PCA的求解数学推导梯度上升法解决主成成分分析问题代码实现梯度上升法求解主成分demean梯度上升法求解其他主成分求解前n个主成分对求解n个主成分方法的最终封装高维数据向低维数据映射Introduction主成分分析是一个非监督的机器学习算法:主要用于数据的降维,通过降维,可以发现更便于人类理解的特征,比如在人脸识别中,就必须通过降维对数据进行处理。其他应

2020-07-03 22:17:04 356

原创 机器学习系列笔记四:线性回归算法

机器学习系列笔记四:线性回归算法文章目录机器学习系列笔记四:线性回归算法introduction最小二乘法实现简单线性回归自定义SimpleLinearRegression向量化运算实现SimpleLinearRegression衡量回归算法的标准MSERMSEMAEscikit-learn中的MSE和MAER Squared实现多元线性回归自定义多元线性回归模型scikit-learn中的线性回归KNN Regressor线性回归的可解释性线性回归算法总结introduction线性回归是用于解决回

2020-07-02 17:08:31 372

原创 大数据工具之Sqoop上手笔记

文章目录Sqoop的介绍Sqoop安装Sqoop的简单使用案例导入数据RDBMS到HDFSRDBMS到HiveRDBMS到Hbase导出数据HIVE/HDFS到RDBMS脚本打包Sqoop一些常用命令及参数常用命令命令&参数详解公用参数:数据库连接公用参数:import公用参数:export公用参数:hive特有参数:import特有参数:export参考Sqoop的介绍Sqoop是一种旨在在Hadoop与关系数据库或大型机之间传输数据的工具。您可以使用Sqoop从关系数据库管理系统(RDBMS

2020-07-02 11:32:55 1592 2

原创 机器学习系列笔记三:K近邻算法与参数调优[下]

机器学习系列笔记三:K近邻算法与参数调优[下]文章目录机器学习系列笔记三:K近邻算法与参数调优[下]网格搜索超参 Grid Search数据归一化最值归一化Normalization均值方差归一化 Standardization对数据集进行归一化sklearn中的StandardScaler手写StandardScaler关于K近邻算法的思考使用scikit-learn实现机器学习的流程总结参考资料网格搜索超参 Grid Search在上一章节中简单描述了对各个超参数的求解过程,实际上sklearn内

2020-06-30 16:11:47 1298

原创 机器学习系列笔记二:K近邻算法与参数调优[上]

机器学习系列笔记二:K近邻算法与参数调优[上]文章目录机器学习系列笔记二:K近邻算法与参数调优[上]手写KNN模拟数据KNN的过程对手写的算法进行封装scikit-learn对KNN算法的封装使用sklearn提供的KNN通过对sklearn的使用重新封装手写的KNN判断机器学习算法的性能数据分离准确度超参数和模型参数寻找好的超参数寻找最好的k考虑距离?不考虑距离?距离的定义搜索Minkowski Distance相应的pKNN算法具有如下特点:思想简单应用数据知识少效果好可以解释机器学习算法

2020-06-29 22:31:30 1069

原创 机器学习系列笔记一:Introduction

机器学习系列笔记一:Intro数据以鸢尾花的数据集为例:花萼长度花萼宽度花瓣长度花瓣宽度种类5.13.21.40.2se(0)7.03.24.71.4ve(1)6.33.362.5vi(2)数据整体叫数据集(data set)每一行数据称为一个样本(sample)除最后一列,每一列表达样本的一个特征(feature)第iii 个样本的所有特征集合写作特征向量 X(i)X^{(i)}X(i),第iii个样本的第jj

2020-06-28 23:04:58 296

原创 HBase回顾六、蛇皮项目实战演练

HBase回顾六、 HBase实战参考自尚硅谷HBase教程http://www.atguigu.com/文章目录HBase回顾六、 HBase实战需求分析代码实现1 代码设计总览:2 创建命名空间以及各个表3 发布微博内容4 添加关注用户5 移除(取关)用户6 获取用户的初始化页面信息7 获取用户的所有微博需求分析微博内容的浏览,数据库表设计用户社交体现:关注用户,取关用户拉取关注的人的微博内容 代码实现1 代码设计总览:创建命名空间以及表名的定义创建微博内容

2020-06-25 17:41:57 233

原创 Python数据分析一条龙(菜鸟上手项目记录--回归分析阶段以及项目总回顾)

往期回顾爬虫阶段数据清洗阶段数据处理阶段4. 回归分析阶段因为sklearn封装了大量的函数供我们调用,所以没有特别复杂的逻辑,talk is cheap, show me the code代码实现import numpy as npfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing i

2020-06-24 22:19:19 256 2

原创 Python数据分析一条龙(菜鸟上手项目记录--数据处理阶段)

上一节回顾3. 数据处理阶段分析为方便后面进行回归分析,所以需要将所有数据转换为数字的形式,在这里我们需要完成的功能如下:将被判年限如四年转换为4*12(以月份为单位)将赔偿金额如五万八千元转换为58000(以元为单位)将法院地址、被告籍贯、被告的文化水平通过字典的方式映射为对应的数字,如:将被告生日转为当前年龄将性别转为0|1数字代码实现先说一下将法院地址、被告籍贯、被告的文化水平通过字典的方式映射为对应的数字的功能实现,因为我当时没有反应过来numpy有一个

2020-06-24 22:05:03 603 3

原创 Python数据分析一条龙(菜鸟上手项目记录--数据清洗阶段)

在上一节,我们通过爬虫拿到了一大堆原始数据,虽然按照字段进行了区分,但是数据的分布并非我们想要的样子,而且有很多数据的字段是缺失的,所以要进行数据清洗。项目介绍及爬虫阶段2. 数据清洗阶段分析从爬取出来的原始数据中可以知道我们在这一阶段的目标是将opponent和judgementResults字段中的多个被告信息和多个被告判决结果分离出来。在之前的代码中,我们使用了"\t"来分割多个被告信息,和审判结果 所以我们利用pandas来读取该csv文件,针对opponent字段和judgement

2020-06-24 21:59:40 386

原创 Python数据分析一条龙(菜鸟上手项目记录--爬虫阶段)

Python数据分析小项目项目结构需求分析用网络爬虫去无讼网站爬取电信网络诈骗一审案例。爬取内容:案例编号案例详情URL案例名称(Title)被告人基本信息:姓名、出生日期、籍贯法院判决结果:罚款数、判决年限法院所在地区建立一个回归模型,分析判决年限受什么因素的影响项目阶段分析在本次项目中,需要完成从数据源到回归分析的一系列过程,将步骤划分为如下阶段:编写爬虫程序,从无讼案例网抓取相关数据编写数据清洗程序,将抓取下来的原始数据进行清洗编写数据处理程

2020-06-24 21:52:27 1567

原创 HBase回顾五、与Hive的集成

HBase回顾五、与Hive的集成文章目录HBase回顾五、与Hive的集成HBase与Hive的对比HBase与Hive集成的环境搭建集成初体验案例1:关联表的创建案例2:使用hive分析HBase表中的数据HBase与Hive的对比1.Hive(1) 数据仓库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。(2) 用于数据分析、清洗Hive适用于离线的数据分析和清洗,延迟较高。(3) 基于HDFS、MapReduceHiv

2020-06-22 19:02:57 151

原创 HBase回顾四、HBase集成MapReduce

HBase回顾四、HBase集成MapReduce通过HBase的相关JavaAPI,我们可以实现伴随HBase操作的MapReduce过程,比如使用MapReduce将数据从本地文件系统导入到HBase的表中,比如我们从HBase中读取一些原始数据后使用MapReduce做数据分析。案例1要求:通过MapReduce对HBase中student表的数据复制到user表流程图分析:第一个案例很简单,只需要通过MR程序完成读写操作即可,而需要注意的时,因为数据的来源和去处都是HBase,所以需要利

2020-06-22 10:43:39 239

原创 HBase回顾三、JAVA_API操作

HBase回顾三、JAVA_API操作环境准备如果要通过java代码来操作hbase数据库,首先需要在项目中导入hbase提供的相关客户端操作jar包如maven.pom.xml所示:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance

2020-06-19 01:05:22 223

原创 HBase回顾二:安装部署、数据结构、shell操作

HBase回顾二:安装部署、数据结构、shell操作文章目录HBase回顾二:安装部署、数据结构、shell操作HBase安装部署HBase数据结构HBase shell操作HBase安装部署通过在前面的回顾,我们直到HBase是基于Zookeeper和HDFS来工作的,所以在安装部署HBase之前,要先确保Zookeeper和Hadoop已经安装并部署成功。Zookeeper安装Hadoop安装部署然后启动Hadoop和Zookeeper单点启动Zookeeper:先cd到Zookeepe

2020-06-17 12:40:36 142

原创 HBase回顾一:组成、架构、工作流程

HBase的组成首先HBase 的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。我们可以想象一张超级超级大的表,可能有几千列几亿行,这个数据量十分庞大,为了进行分布式存储和处理,所以我们要把表进行拆分。根据拆分的逻辑就有了HBase的组成:大表的拆分点击这里看原图也正是如上图所示的列拆分,所以HBase是面向列存储的数据库HBase 的组件[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VEt

2020-06-17 10:10:04 320

转载 DQN的总结

转载一篇关于DQN解释非常好的文章转载自:https://zhuanlan.zhihu.com/p/46852675本人做了一些细微的改动,方便个人理解,原文请点这里DQN的由来和解释Q-Learning可以很好的解决迷宫问题,但这终究是个小问题,它的状态空间和动作空间都很小。而在实际的情况下,大部分问题都有巨大的状态空间或动作空间,建立Q表,内存是不允许的,而且数据量和时间开销也是个问题。我们可以使用神经网络来表示我们的 Q 函数,每层网络的权重就是对应的值函数,取 4 四帧游戏图像作为 sta

2020-06-07 19:09:24 9296

原创 从Q-Learning到Deep-Q-Learning

Deep Learning定义深度学习(Deep Learing)由一组算法和技术构成,这些算法和技术试图发现数据的重要特征并对其高级抽象建模。深度学习的主要目标是通过对数据的自动学习来避免手动描述数据结构(如手写特征)。深度指的是通常具有两个或多个隐藏层的任何神经网络即(DNN)。大多数深度学习模型都基于人工神经网络(ANN),尽管它们也可以包含命题公式或在深度生成模型中分层组织的潜在变量,例如Deep Belief Networks和Deep Boltzmann Machines中的节点。人工神

2020-06-07 14:36:18 1391

原创 强化学习之Q-Learing基础

强化学习之Q-Learing基础文章目录强化学习之Q-Learing基础马尔可夫决策过程MDP1)部分可观察马尔可夫决策过程POMDPs2)Markov Games:总结强化学习之Q-Learning马尔可夫决策过程MDPMDP 是一个离散时间随机控制过程。MDP提供了用于建模决策问题的数学框架,在该决策中,结果是部分随机的,并且受决策者或代理商的控制。MDP对于研究可以通过动态编程和强化学习技术解决的优化问题很有用。通常MDP可以用这样的元组来定义:(S,A,p,r)(S,A,p,r)(S,A

2020-06-06 20:52:30 1136 1

原创 hive尚硅谷实战案例统计youtube视频热度

谷粒影音案例背景及需求描述现有两个记录了关于youtube视频信息和用户信息的txt文件其中存放了视频信息的文件每行的字段如下所示:字段备注详细描述video id视频唯一 id11 位字符串uploader视频上传者上传视频的用户名 Stringage视频年龄视频在平台上的整数天category视频类别上传视频指定的视频分类length视频长度整形数字标识的视频长度views观看次数视频被浏览的次数rate流量视

2020-06-03 12:42:01 2535 2

原创 通过Hive的案例了解Hive在工作中的使用

通过Hive的案例了解Hive在工作中的使用笔者学习了HIve有一阵子时间了,但是碍于缺乏项目的实战,所以HQL写的总是别别扭扭,所幸通过一个案例似乎打通了一些对于HiveSQL使用的一些疑惑,故通过这个案例做个小小的总结。文章目录通过Hive的案例了解Hive在工作中的使用案例1:蚂蚁森林统计排名背景说明:需求描述1.蚂蚁森林植物申领统计需求1查询方案2. 蚂蚁森林低碳用户排名分析需求2查询方案1需求2查询方案2案例二:京东店铺热门统计需求1:需求1查询方案需求二需求二解决方案统计每个店铺的访客数统计

2020-06-02 13:05:08 640

原创 MapReduce开发总结-程序流程和典型实例

MapReduce开发总结通过思维导图的方式总结在MapReduce开发过程中需要明晰的一些知识点和一些示例代码导图已上传方便有缘人文章目录MapReduce开发总结MapReduce工作流程MapReduce 相关组件InputFormatMapperPartition分区Comparable排序Combiner合并GroupingComparator分组ReducerOutputFormatMapReduce工作流程MapReduce 相关组件InputFormatMapperPa

2020-05-21 15:53:05 186

原创 MapReduce实现数据的二级排序并统计指定字段

引言在搭建了hadoop集群后,可以把实现聚焦于业务的具体实现,以一个实例为引子,巩固mapreduce的编程实践。如何配置hadoop集群,且看上一篇博客文章目录引言对运营商基站数据进行排序、统计。MapReduce工作流程MapTask工作机制ReduceTask工作机制明确目标:DataBean和TimeUtil的定义TimeUtilsDataBeanMapper和Reducer的定义MapperReducerDriver的定义在排序的基础上完成统计SumDataBeanDataAggregat

2020-05-19 17:56:57 803

Microblog-background.rar

通过该蛇皮项目的实战,了解HBase的应用场景和如何使用JAVA-API来完成对于增删改查数据的需求

2020-06-25

无讼爬虫数据分析项目代码.rar

用网络爬虫去无讼网站爬取电信网络诈骗一审案例。爬取内容: * 案例编号 * 案例详情URL * 案例名称(Title) * 被告人基本信息:姓名、出生日期、籍贯 * 法院判决结果:罚款数、判决年限 * 法院所在地区 建立一个回归模型,分析判决年限受什么因素的影响

2020-06-24

hive相关练习的数据data.rar

现有两个记录了关于youtube视频信息和用户信息的txt文件,在该资源中的gulivideo文件下下。

2020-06-03

大数据相关思维导图,自己总结的,如有错误或遗漏,欢迎指出

在压缩包中存放了多张.xmind文件,建议下载xmind打开,导图内嵌入了架构图以及各个MR组件相关的代码,笔者在总结的时候有些劳累,如有错误和遗漏,欢迎批评和指正

2020-05-21

dataAndJar.rar

为方便大家借鉴,上传了博客中提到的相关资源,如有雷同,定为巧合

2020-05-19

Python爬虫.itmz

网络爬虫基础的一个大型思维导图,基本涵盖爬虫所需的网络知识和相关协议,总结了请求响应式的浏览器运行架构,爬虫代理,cookie,session等相关的细节

2020-04-24

数据分析常用包学习.itmz

NumPy,Pandas,Matplotlib是数据分析,数据处理的三大必备开源模块,也是机器学习AI技术的应用基石之一。其中知识点多且杂,故将其总结为思维导图的形式,方便食用。

2020-04-21

mongodb-compass-community-1.16.4-win32-x64.zip

MongoDB的讲义,资源包。与大数据hadoop学习相关,包含快速入手MongoDB和MongoDB集群安全两个部分,以及mongoDB的可视化工具zip包MongoDB-compass

2020-03-28

Filebianli.java

在Java中如何实现文件的遍历。利用到File类,也是入门IO流的基础练习

2019-10-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除