- 博客(18)
- 收藏
- 关注
原创 Hadoop保姆级安装教程(大数据集群一)
Hadoop入门与集群搭建Hadoop概述HDFS概述YARN概述Mapreduce架构概述Hadoop集群搭建虚拟环境准备安装JDK安装HadoopHadoop目录结构Hadoop完全分布式运行模式xsync群发脚本实现集群配置配置集群SSH无密登录配置群起集群Hadoop概述HDFS概述NameNode:存储文件的元数据(文件名,文件目录结构,文件属性(生成文件的时间、副本数、文件权限),以及每一个文件的块列表和块所在的DataNode。DataNode:在本地文件系统存储文件块数据,以及块数
2021-02-25 09:34:58 429
原创 Linux常用命令
Linux常用命令常用命令使用awkawk练习压缩与拷贝文件zip格式tar格式scp命令拷贝文件、文件夹find命令对比两个文件,对结果进行解释常用命令使用awk1.基本用法awk [选项参数] ‘pattern1{action1} pattern2{action2}…’ filenamepattern:表示AWK在数据中查找的内容,就是匹配模式action:在找到匹配内容时所执行的一系列命令2.选项参数说明选项参数 功能-F 指定输入文件折分隔符-v 赋值一个用户定义变量特殊要点
2020-11-17 10:59:02 137
原创 (一)机器学习第一天 KNN算法实现(约会网站配对效果)
本文讲解的第一个机器学习算法是k-近邻算法(kNN),它的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。导入模
2020-05-30 16:51:33 455
原创 python股票量化分析
使用tushare包的get_k_data()函数来获取股票交易数据,具体可以通过命令help(ts.get_k_data)了解函数和参数含义。import pandas as pd import numpy as npimport matplotlib.pyplot as plt#正常显示画图时出现的中文from pylab import mpl#这里使用微软雅黑字体mpl.rcParams['font.sans-serif']=['SimHei']#画图时显示负号mpl.rcPara
2020-05-10 09:50:33 886
原创 基于简单模型KNN——泰坦尼克号获救分析
数据来源:Kaggle数据集 → 共有1309名乘客数据,其中891是已知存活情况(train.csv),剩下418则是需要进行分析预测的(test.csv)字段意义:PassengerId: 乘客编号Survived :存活情况(存活:1 ; 死亡:0)Pclass : 客舱等级Name : 乘客姓名Sex : 性别Age : 年龄SibSp : 同乘的兄弟姐妹/配偶数Parch : 同乘的父母/小孩数T
2020-05-09 15:34:18 963 1
原创 数据分析Qgis-城市餐饮店铺选址
目标:从三个维度“口味”、“人均消费”、“性价比”对不同菜系进行比较,并筛选出可开店铺的餐饮类型实现的具体细节:① 计算出三个维度的指标得分② 评价方法:口味 → 得分越高越好性价比 → 得分越高越好人均消费 → 价格适中即可③ 制作散点图,x轴为“人均消费”,y轴为“性价比得分”,点的大小为“口味得分”绘制柱状图,分别显示“口味得分”、“性价比得分”实现过程载入数据import numpy as npimport pandas as pdimport matplotlib.pyp
2020-05-08 22:07:54 1737 13
原创 基于bokeh的数据分析——电商套路解析
项目目标一: 从现有数据中,分析出“各个品牌都有多少商品参加了双十一活动导入模块import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings('ignore')from bokeh.plotting import figure,show,output_filefrom bokeh.models import ColumnDataSour
2020-05-08 18:24:26 373
原创 基于Excel下的电商数据分析
一.数据来源阿里云天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1数据集包含了2017年11月25日至2017年12月3日之间,约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集大小情况为:用户数量约100万(987,994),商品数量约410万(4,162,024),商品类目数量...
2020-05-05 22:25:01 1418
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人