自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (28)
  • 收藏
  • 关注

原创 【数据分析师---数据分析基础】第三章:Pandas功能介绍及应用

Pandas动手实操1 Csv和Excel文件读取与写入1.1 Csv文件读取与写入1.1.1 Csv数据读取1.1.2 跳过指定行进行数据读取1.1.3 字段名称操作1.1.4 读取指定数量的数据1.1.5 数据存入Csv1.2 Excel数据读取与写入1.2.1 Excel数据默认读取1.2.2 指定sheet进行读取1.2.3 读入数据初步处理1.2.4 数据保存为Excel文件1 Csv和Excel文件读取与写入1.1 Csv文件读取与写入1.1.1 Csv数据读取这里以一份股票数据为例,利

2021-07-29 22:42:47 1878

原创 【数据分析师---数据分析基础】第二章:Pandas概述及基础

Pandas概述、功能介绍与应用1 Pandas概述1 Pandas概述Pandas 是基于 NumPy 的一种工具,该工具是为了解决数据分析任务而创建的;Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具;Pandas 提供了大量能使我们快速且便捷处理数据的函数和方法;Pandas 在2010年成为开源项目,是一个在真实世界中广泛应用的大型类库;Pandas的开发者社区有超过800个代码贡献者,他们帮助构建了项目,并将Pandas应用到日常中去解

2021-07-26 09:53:53 807

原创 【Hbase】搭建Hbase的本地模式、伪分布模式、全分布模式和HA模式

搭建Hbase的本地模式、伪分布模式、全分布模式和HA0 共同操作1 搭建Hbase的本地模式1.1 搭建步骤1.2 搭建实操1.2.1 共同操作步骤1.2.2 本地模式操作步骤2 搭建Hbase的伪分布模式3 搭建Hbase的全分布模式3.1 同步时间、启动Hadoop3.2 配置环境变量3.3 配置hbase-env.sh文件3.4 配置hbase-site.xml文件3.5 配置regionservers文件4 搭建Hbase的HA模式手动反爬虫,禁止转载:原博地址 https://blog.csd

2021-07-23 16:23:17 569 2

原创 【Hbase】常见的NoSQL数据库和Hbase体系架构和表结构

这里写目录标题1 常见的NoSQL数据库1.1 什么是NoSQL数据库?not only sql1.2 常见的NoSQL2 Hbase体系架构和表结构2.1 Hadoop的生态圈组件2.2 Hbase体系架构2.3 Hbase表结构手动反爬虫,禁止转载:原博地址 https://blog.csdn.net/lys_828/article/details/119027211(CSDN博主:Be_melting) 知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于未经作者授

2021-07-23 12:12:21 499 1

原创 【MapReduce】数据去重、多表查询、倒排索引、单元测试等案例编程

数据去重、多表查询、倒排索引、单元测试等案例编程1 数据去重2 多表查询3 倒排索引4 单元测试1 数据去重相当于实现SQL里面的distinct的功能。废话不说多,直接进行代码编程,创建一个demo.distinct的package,然后进行框架的搭建(框架里面包含Mapper、Reducer和执行的主程序三个文件),如下首先开发Mapper程序,具体的代码如下(基本上之前都见过了,没啥区别)package demo.distinct;import java.io.IOException;

2021-07-22 23:40:47 819 1

原创 【MapReduce】分区(分区实战案例)、Combiner、Shuffer

分区(分区实战案例)、Combiner、Shuffer1 分区2 根据部门号建立分区3 Combiner4 Shuffer手动反爬虫,禁止转载:原博地址 https://blog.csdn.net/lys_828/article/details/118990176(CSDN博主:Be_melting) 知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息1 分区在MapReduce中,通过我们指定分区,会将同一个分区的数据发送到同一个Red

2021-07-22 09:57:57 3003 1

原创 【MapReduce】数字、字符串和对象的排序

数字、字符串和对象的排序1 Java的排序2 MapReduce排序2.1 数字排序2.2 字符串排序2.3 员工对象排序手动反爬虫,禁止转载:原博地址 https://blog.csdn.net/lys_828/article/details/118974089(CSDN博主:Be_melting) 知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息1 Java的排序在认识Hadoop中的排序操作之前,可以了解一下Java的排序操作,具

2021-07-21 21:38:43 931 1

原创 【MapReduce】Hadoop的序列化机制以及序列化案例求解每个部门工资总额

Hadoop的序列化机制以及序列化案例求解每个部门工资总额1 Hadoop的序列化1.1 序列化定义1.2 Java序列化编程1.3 hadoop序列化编程2 序列化求解每个部门工资总额手动反爬虫,禁止转载:原博地址 https://blog.csdn.net/lys_828/article/details/118966924(CSDN博主:Be_melting) 知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息1 Hadoop的序列化

2021-07-21 17:30:15 752 1

原创 【MapReduce】分析每个部门工资总额的数据处理流程并开发程序

分析每个部门总额的数据处理流程并开发程序1 分析每个部门工资总额的数据处理流程2 每个部门工资总额程序开发2.1 创建框架2.2 开发Mapper程序2.3 开发Reduce程序2.4 执行主程序手动反爬虫,禁止转载:原博地址 https://blog.csdn.net/lys_828/article/details/118964468(CSDN博主:Be_melting) 知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息1 分析每个部门

2021-07-21 14:43:41 1314

原创 【MapReduce】分析WordCount数据处理过程并进行自主开发WordCount程序

分析WordCount数据处理过程1 演示WordCount运行2 分析WordCount数据处理过程3 自主开发WordCount程序3.1 下载jar包3.2 创建程序框架3.3 WordCountMapper程序开发3.4 WordCountReducer程序开发3.5 WordCount执行程序开发3.6 代码打包4 程序测试手动反爬虫,禁止转载:原博地址 https://blog.csdn.net/lys_828/article/details/118958601(CSDN博主:Be_melti

2021-07-21 12:44:32 1594 1

原创 【翻译服务(1)】有道智云使用入门及文本、图片和语音翻译服务

有道智云使用入门及翻译服务1 有道智云注册、使用2 对称加密、非对称加密,、RSA加密2.1 对称加密2.2 非对称加密与RSA加密3 中间人攻击4 数字签名5 哈希函数(hash)6 查阅云服务技术文档7 获取云服务应用的APP_KEY和APP-SECRECT8 文本、图片、语音翻译测试8.1 文本翻译8.2 图片翻译8.3 音频翻译手动反爬虫,禁止转载:原博地址 https://blog.csdn.net/lys_828/article/details/118940541(CSDN博主:Be_mel

2021-07-20 21:06:50 1053 2

原创 【Hadoop】HDFS操作、数据上传与下载原理解析、高级特性及底层原理

HDFS操作、数据上传与下载原理解析、高级特性及底层原理1 HDFS操作1.1 Web Console网页工具1.2 命令行1.2.1 普通的操作命令1.2.2 管理员命令1.3 Java API2 HDFS的原理解析2.1 数据上传的过程2.2 数据下载的过程2.3 使用Java API获取HDFS中的元信息3 HDFS的高级特性3.1 回收站3.2 配额Quota3.2.1 名称配额3.2.2 空间配额3.3 快照Snapshot3.4 安全模式与权限管理3.5 HDFS的集群4 HDFS的底层原理4.

2021-07-12 18:42:40 1819 6

原创 【Hadoop】Hadoop体系架构详解

Hadoop体系架构详解1 NameNode职责1.1 NameNode三大职责1.2 edits文件1.3 fsimage文件2 DataNode职责3 SecondNameNode职责4 Yarn体系架构和任务调度过程5 Hbase体系架构6 主从架构单点故障问题及解决方案手动反爬虫,禁止转载:原博地址 https://blog.csdn.net/lys_828/article/details/118655138(CSDN博主:Be_melting) 知识梳理不易,请尊重劳动成果,文章仅发布在CSD

2021-07-11 20:42:56 1341 2

原创 【Hadoop】Hadoop的目录结构和脚本与环境搭建(本地模式、伪分布模式和全分布模式)

搭建Hadoop环境(本地模式、伪分布模式和全分布模式)1 Hadoop的目录结构和脚本1.1 核实已有配置1.2 安装Hadoop1.3 Hadoop环境变量配置1.4 Hadoop主要脚本命令2 本地模式搭建3 伪分布模式搭建4 全分布模式搭建1 Hadoop的目录结构和脚本在进行Hadoop环境安装之前,需要对Hadoop的目录结构和主要脚本有个清晰的认知。1.1 核实已有配置在进行介绍之前核实一下之前的操作是否无误。(1)首先看一下之前配置的主机名和IP地址(核实无误)(2)防火墙关闭

2021-07-11 01:30:25 663 1

原创 【Hadoop】谷歌的三篇论文(GFS、MapReduce分布式计算模型 、BigTable大表)

谷歌的三篇论文(GFS、MapReduce分布式计算模型 、BigTable大表)0 谷歌的基本思想:三驾马车1 第一篇论文:GFS1.1 Google的GFS分布式文件系统的基本原理1.2 HDFS1.2.1 节点介绍1.2.2 数据块与机架感知1.2.3 客户端日志1.2.4 数据块位置信息1.2.5 倒排索引2 第二篇论文:MapReduce分布式计算模型2.1 MapReduce基本原理2.2 上机操作3 第三篇论文:BigTable大表3.1 大表基础理念3.2 大表与传统数据库表结构对比手动

2021-07-10 14:37:03 10747 3

原创 【Hadoop】Hadoop体系知识点梳理(目录)

Hadoop体系知识点梳理(目录)核心点第一章:Hadoop背景知识与起源第二章:搭建Hadoop环境第三章:HDFS体系架构第四章:HDFS第五章:MapReduce第六章:Hbase第七章:Hive第八章:Pig第九章:Sqoop第十章:Zookeeper与HA第十一章:HUE核心点(1)明确大数据开发的原理、思想和架构(2)需要自己动手搭建环境:学习阶段:使用Apache版本生产开发:CDH、HDP、阿里、华为等(3)开发程序时使用的语言:Hadoop:Java语言Spark:S

2021-07-10 10:53:06 487

原创 【大数据前置基础】大数据聚焦层面,数据仓库,OLAP和OLTP

大数据中的几个概念1 什么是大数据2 数据仓库3 OLAP和OLTP手动反爬虫,禁止转载:原博地址 https://blog.csdn.net/lys_828/article/details/118599017(CSDN作者:Be_melting) 知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息1 什么是大数据先举个例子:假如我是一个电商,我想要把过去一个月中卖得好的商品提出来打包放在电商网页的首页,这样用户打开首页之后就能直接看到热

2021-07-09 22:58:13 515 3

原创 【大数据前置基础】Linux系统中VI编辑器使用、文件目录操作、权限管理、Java安装

VI编辑器使用、文件目录操作、网络配置、常用命令与shell编程1 VI编辑器使用2 文件目录的操作2.1 ls 显示文件和目录列表2.2 mkdir 创建目录2.3 cd 切换目录2.4 touch 生成一个空文件2.5 cat、tac 显示文本文件内容2.6 复制、删除和移动2.7 文件查找和文档树3 权限管理4 JDK配置1 VI编辑器使用VI编辑器相当于是windows系统里面的记事本,在Linux中可以使用VI编辑器来处理文本文件,再今后的文件配置中会大量的使用VI编辑器,其运行模式一共可以分

2021-07-09 16:27:18 796

原创 【大数据前置基础】Linux安装、Xshell远程控制、WinSCP文件传输

Linux安装、Xshell远程控制、WinCAP文件传输1 Linux安装1.1 创建虚拟机1.2 虚拟机启动及配置2 Xshell远程连接虚拟机3 WinCAP文件传输手动反爬虫,禁止转载:原博地址 https://blog.csdn.net/lys_828/article/details/118592953 知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息1 Linux安装1.1 创建虚拟机关于Linux的简介,可以参考一下百

2021-07-09 08:59:08 427 1

多分类多字段箱型图或者小提琴图绘制测试数据

博文【python科研绘图】多分类多字段箱型图或者小提琴图绘制中的测试数据

2022-12-01

中国地图绘制的json文件

用于补充【python数据分析】绘制疫情可视化地图、气泡图中地图文件数据

2022-04-21

数据分析师专栏中的机器学习的源代码

针对于博客中评论一直有人需求源代码,这里上传源代码供学习参考,对于数据,也在资源里(数据分析师专栏中的机器学习的补充数据)可以找到,加油学习

2022-04-19

博客中数据分析师专栏,机器学习部分的补充数据文件

博客中数据分析师专栏,机器学习部分的补充数据文件 有文件缺少可以直接私信博主补充

2022-04-19

大数据实战项代码.zip

大数据实战项目中的代码和web文件中的文件

2021-12-08

opencv人脸识别实战操作.zip

本资源包含了博客:利用open-cv对黄晓明、AB、刘亦菲图片进行人脸识别一文中的所需材料和源代码,用于交流学习,不涉及商业用途

2020-12-14

上海行政区、人口和道路的gis数据.zip

用于博客python数据分析实战中餐馆选址中的数据支撑,包含了上海市行政区、人口和城市道路三个gis数据,可以直接加载

2020-11-25

mysql和navicat.zip

本资源用于博客:Mysql 5.x安装过程梳理中的软件部分,文件中包含了mysql5.540版本的数据库文件和navicat15版本的软件安装包,只用作于学习交流参考。

2020-11-16

时间序列分析.zip

资源是博客:时间特征序列分析汇总(以2021-2019年槽罐车事故数据为例)一文中的数据和ipynb文件,用于对于交流和学习

2020-11-10

贝叶斯新闻分类实战项目文本和停用词数据

本资源是对贝叶斯新闻分类实战项目详解博客一文中的数据资料补充,包含了文本数据,停用词,ipynb文件,仅供读者参考

2020-10-22

信用卡欺诈项目数据和文件.zip

本资源用于博客栏目中的机器学习实例详解中逻辑回归案例模板——信用卡欺诈检测,包含数据和完整的流程ipynb文件

2020-10-09

上海餐饮数据.zip

本数据集作为【python数据分析实战】城市餐饮店铺选址问题(1)—— 对不同菜系进行比较,并筛选出可开店铺的餐饮类型 中的数据支撑

2020-06-16

全国县级边界shp低分辨率.zip

本资源为博客【python数据分析】详解疫情数据地图可视化步骤一文中的数据来源,供学习参考时候,属于中国县级地图的json数据格式

2020-05-26

全国市级边界shp高分辨率.zip

本资源为博客【python数据分析】详解疫情数据地图可视化步骤一文中的数据来源,供学习参考时候,属于中国市级地图的json数据格式

2020-05-26

virus_data.zip

本资源为博客【python数据分析】详解疫情数据地图可视化步骤一文中的数据来源,供学习参考时候,数据整理不易

2020-05-26

链家网出租房源详细信息

本资源就是作为链家网出租房信息的爬虫数据,旨在用于博客正则表达式分组及pandas实用操作一文的数据来源。

2020-05-23

江苏省科学技术综合奖.zip

本数据为江苏省科学技术综合奖近十年来的全部的获奖人员及详细信息的名单,包含了doc、xls和pdf数据,主要用来做项目分享

2020-05-16

项目:知乎数据.zip

本资源为知乎数据信息爬取,用于做python数据分析实战项目,数据字段包含_id 关注的收藏夹、关注、关注者、关注的问题、关注的话题、关注的专栏、职业1、职业2、回答、提问 、收藏、个人简介、居住地、所在行业、教育经历、职业经历等信息

2020-05-08

数据爬取:六普常住人口数.zip

本资源为全国第六次人口普查各省市常住人口数量,共统计各省市数据量677条,其中包含各省的统计以及其下辖的区县的人口数据 。用于统计分析和数据处理

2020-05-08

机器学习数据.zip

本资源作为专栏机器学习专栏的原始数据,包含了简单的数据,未处理的数据和最终处理完成后的房价数据,用于机器学习相关知识的学习

2020-05-07

项目:电商打折套路解析.zip

本资源为淘宝美妆双十一前后的爬虫数据,时期为11月5-11月14号,作为本博客的python数据分析实战的电商套路分析的数据来源

2020-05-07

项目:国产烂片深度揭秘.zip

本数据资源来源于豆瓣电影数据的爬虫所得,共有数据2458条,作为本博客栏目下的python数据实战分析中国产烂片深度解析的数据来源

2020-05-07

中国全部31个省市区的经纬度信息数据(2020年4月29日爬取)

该压缩包中包含全国各省市区的汇总经纬度数据(精度在小数点5位及以上),还有按照各个省份分别统计的市区县对应的经纬度数据。数据爬取时间为2020年4月29日爬取

2020-04-29

机器学习源码.zip

用于博客中机器学习部分的参考,作为资源的补充,进行知识的分享,资料的运行环境是在jupyter notebook下进行的

2020-04-25

鲁迅对于《祝福》中祥林嫂的情感倾向分析.ipynb

本资源是博客【python舆情分析(5)】 情感倾向分析之鲁迅《祝福》里对祥林嫂(特定人物)的情感倾向 的资料补充,作为学习资料进行参考的

2020-03-26

projects.zip

该资源是作为【机器学习(14)】指定路径下文件的选取、数据缺失值查询及处理、帕累托分析、多文件数据合并与线性回归预测一条龙解析(全过程函数式编程)博客的资源补充

2020-03-19

2_class.rar

这个资源仅用于本博客(【深度学习】利用tensorflow2.0卷积神经网络进行卫星图片分类实例操作详解)的复习分享用,

2020-02-12

auto_office1.zip

用于输出目录所有文件夹这篇文章的示例,读者可以根据文章的内容和代码进行auto_office1.zip压缩文件的使用

2020-01-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除