自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

m0_47027405的博客

原创 Hadoop保姆级安装教程（大数据集群一）

Hadoop入门与集群搭建Hadoop概述HDFS概述YARN概述Mapreduce架构概述Hadoop集群搭建虚拟环境准备安装JDK安装HadoopHadoop目录结构Hadoop完全分布式运行模式xsync群发脚本实现集群配置配置集群SSH无密登录配置群起集群Hadoop概述HDFS概述NameNode：存储文件的元数据（文件名，文件目录结构，文件属性（生成文件的时间、副本数、文件权限），以及每一个文件的块列表和块所在的DataNode。DataNode：在本地文件系统存储文件块数据，以及块数

2021-02-25 09:34:58 546

原创 Pandas去重替换与数据分组

2020-11-18 16:46:50 256

原创 Linux常用命令

Linux常用命令常用命令使用awkawk练习压缩与拷贝文件zip格式tar格式scp命令拷贝文件、文件夹find命令对比两个文件，对结果进行解释常用命令使用awk1.基本用法awk [选项参数] ‘pattern1{action1} pattern2{action2}…’ filenamepattern：表示AWK在数据中查找的内容，就是匹配模式action：在找到匹配内容时所执行的一系列命令2.选项参数说明选项参数功能-F 指定输入文件折分隔符-v 赋值一个用户定义变量特殊要点

2020-11-17 10:59:02 217

原创 (一）机器学习第一天 KNN算法实现（约会网站配对效果）

本文讲解的第一个机器学习算法是k-近邻算法（kNN），它的工作原理是：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。导入模

2020-05-30 16:51:33 523

原创 python股票量化分析

使用tushare包的get_k_data()函数来获取股票交易数据，具体可以通过命令help(ts.get_k_data)了解函数和参数含义。import pandas as pd import numpy as npimport matplotlib.pyplot as plt#正常显示画图时出现的中文from pylab import mpl#这里使用微软雅黑字体mpl.rcParams['font.sans-serif']=['SimHei']#画图时显示负号mpl.rcPara

2020-05-10 09:50:33 1127

原创基于简单模型KNN——泰坦尼克号获救分析

数据来源：Kaggle数据集 → 共有1309名乘客数据，其中891是已知存活情况（train.csv），剩下418则是需要进行分析预测的（test.csv）字段意义：PassengerId: 乘客编号Survived :存活情况（存活：1 ; 死亡：0）Pclass : 客舱等级Name : 乘客姓名Sex : 性别Age : 年龄SibSp : 同乘的兄弟姐妹/配偶数Parch : 同乘的父母/小孩数T

2020-05-09 15:34:18 1093 1

原创数据分析Qgis-城市餐饮店铺选址

目标：从三个维度“口味”、“人均消费”、“性价比”对不同菜系进行比较，并筛选出可开店铺的餐饮类型实现的具体细节：① 计算出三个维度的指标得分② 评价方法：口味 → 得分越高越好性价比 → 得分越高越好人均消费 → 价格适中即可③ 制作散点图，x轴为“人均消费”，y轴为“性价比得分”，点的大小为“口味得分”绘制柱状图，分别显示“口味得分”、“性价比得分”实现过程载入数据import numpy as npimport pandas as pdimport matplotlib.pyp

2020-05-08 22:07:54 2055 13

原创基于bokeh的数据分析——电商套路解析

项目目标一：从现有数据中，分析出“各个品牌都有多少商品参加了双十一活动导入模块import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings('ignore')from bokeh.plotting import figure,show,output_filefrom bokeh.models import ColumnDataSour

2020-05-08 18:24:26 445

原创基于Excel下的电商数据分析

一.数据来源阿里云天池：https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1数据集包含了2017年11月25日至2017年12月3日之间，约一百万随机用户的所有行为（行为包括点击、购买、加购、喜欢）。数据集大小情况为：用户数量约100万（987,994），商品数量约410万（4,162,024），商品类目数量...

2020-05-05 22:25:01 1716

原创 Pandas中连接与修补 concat、combine_first

2020-04-21 15:25:35 199

原创 pandas中merge，join

2020-04-21 15:10:36 142

原创 Pandas针对字符串配备的一套方法，使其易于对数组的每个元素进行操作

2020-04-21 14:55:15 159

原创 Pandas常用的数值计算和统计基础

基本参数axis，skipna

2020-04-21 14:43:33 199

原创 Pandas中的series

2020-04-19 15:21:22 136

原创 Numpy数据的输入输出 numpy读取/写入数组数据、文本数据

2020-04-19 12:03:26 1731

原创 Numpy随机数生成

2020-04-19 12:00:12 167

原创 Numpy索引及切片

基本索引切片

2020-04-19 11:56:27 170

原创 Numpy基础数据结构

Numpy基础数据结构Numpy

2020-04-19 11:51:26 174

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除