- 博客(17)
- 资源 (7)
- 收藏
- 关注
原创 MapReduce从零基础到实战
离线批处理,时间延迟。上传文件到hdfs上:hdfs dfs -cat /后接想要查看的目录文件路径hadoop jar WC.jar WC.MapreduceWC /hdfstest1/WCdemo.txt /指定为创建的文件夹/想要查看我结果执行mapReduce的程序出现一个问题:Exception in thread “main” java.io...
2019-08-31 14:26:25 1654 1
原创 hadoop的集群启动nodemanager启动不起来
hadoop的集群启动nodemanager启动不起来:我关机重新启动集群:重新启动了所有集群发现,jps的进程啥都没有了,全都消失,后来发现资源用完了,然后我把hadoop的日志删除了,这样我就有内存了,再重新启动集群发现可以了。...
2019-08-29 17:23:47 2210
原创 启动hive的问题
启动hive报错:Caused by: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failure然后开始检查mysql的启动,还是起不来首先启动mysql报错:ERROR 2002 (HY000): Can't connect to local MySQL server th...
2019-08-29 17:20:38 196
原创 用户个体消费分析
#这份数据 分别是 用户的id 消费的日期 购买的产品数量,购买的金额首先对数据进行预处理:首先我们对数据进行读取,并且做出相应数据的转换。import pandas as pdimport numpy as npimport matplotlib.pyplot as plt#这份数据 分别是 用户的id 消费的日期 购买的产品数量,购买的金额colums ...
2019-08-20 01:50:53 420
原创 用户消费行为分析实战
用户消费行为分析实战#这份数据 分别是 用户的id 消费的日期 购买的产品数量,购买的金额首先我们对数据进行读取,并且做出相应数据的转换。import pandas as pdimport numpy as np#这份数据 分别是 用户的id 消费的日期 购买的产品数量,购买的金额colums = ['usr_id','order_dt','order_prod...
2019-08-19 23:04:59 475
原创 pandas.read_csv() 出现乱码,几种总结的解决方法
在pycharm中都是乱码并且出现以下的问题:下面我用三种方法解决unicode解码错误:“utf-8”编解码器无法解码位置5的字节0xc7:无效的延续字节原因:Python版本:Python 3.6pandas.read_csv() 报错 OSError: Initializing from file failed,一般由两种情况引起:一种是函数参数为路径而非文件名称,另...
2019-08-17 16:53:08 10017
原创 十分钟零基础使用springboot打造java后台管理系统
使用开源框架guns:下载地址:https://gitee.com/stylefeng/guns使用环境 jdk、idea、mysql、首先下载好框架:然后解压,并且使用idea的open打开项目打开后配置一下maven可以使用的自己的仓库,也可以不配置下载一个maven配置一下路径:我的是maven3.3.9具体maven的配置不介绍了,百度就行,也不可以不下载m...
2019-08-16 08:00:14 1709 1
原创 hive的三个基本小案例的实现
建表的基本语法:create table tablename(col,type)例一:create table sxtTest(id int,name string,likes array<string>,address map<string,string>)row format delimitedfields terminated by ','col...
2019-08-13 15:06:14 366
原创 数据的特征预处理实战
简单的数据预处理:import pandas as pdimport numpy as npfrom sklearn.preprocessing import MinMaxScaler,StandardScalerfrom sklearn.preprocessing import LabelEncoder,OneHotEncoderfrom sklearn.prepro...
2019-08-12 20:39:37 404
原创 数据挖掘的特征介绍和处理方法介绍
一、特征工程二、数据清洗:1、数据样本抽样2、异常值(空值)处理 在特征预处理的过程中,进行数据标注是非常重要的,比如我们想要预测明天下雨不下雨,那么这个时候我们得到的数据中,需要对关于我们预测的结果的数据进行标注,也就是下雨不下雨进行标注。上图是一个hr的人力资源的分析图,...
2019-08-12 17:11:14 914
原创 交叉分析方法与实现
看一个部门的离职率的数据,简单分析一下,部门离职率与所做的工作的相关性:因为数据太多,只能给出少量数据了,如果有想要数据的可以留言赠送给定如下数据:HR.csv:satisfaction_level,last_evaluation,number_project,average_monthly_hours,time_spend_company,Work_accident,left,...
2019-08-09 20:04:31 1915 1
原创 利用MapReduce实现好友推荐
MapReduce的好友推荐案列:推荐好友的好友是简单的好友列表的差集吗?最应该推荐的好友TopN,如何排名?简单数据集:tom hello hadoop catworld hadoop hello hivecat tom hivemr hive hellohive cat hadoop world hello mrhadoop tom hive ...
2019-08-09 18:03:33 705
原创 线性回归简单实践
线性回归简单实践代码如下:import numpy as np#如果取不到,默认取很大的维度def myPCA(data,n_components = 100000000): # data的均值,axis是每个属性的均值 mean_vals = np.mean(data,axis=0) mid = data - mean_vals #求斜方差...
2019-08-09 01:22:18 213
原创 Centos7.5离线安装python3和Tensorflow的环境搭建从零开始
Tensorflow 的安装环境(cpu版)centos7(7以下版本不建议使用) python3.6(2版本不建议使用因2只支持到2020年) Tensorflow1.7(建议使用1.6及以上版本)所需安装包Python-3.6.4.tgz tensorflow-1.7.0rc0-cp36-cp36m-linux_x86_64.whl protobuf-3.5.2-cp36-cp3...
2019-08-08 17:05:50 1438
原创 利用spark分析慕课网千万条日志实战项目二
Imooc网主站日志介绍:访问时间 访问url 访问过程耗费的流量 访问ip地址第一步是数据清洗:一般的日志处理方式,我们是需要进行分区的,按照日志中的访问时间进行相应的分区,比如:d,h,m5(每5分钟一个分区)输入:访问时间、访问URL、耗费的流量、访问IP地址信息输出:URL、cmsType(video/article)、cmsId(编号)、流量、ip、...
2019-08-03 00:03:27 338
原创 利用spark分析慕课网千万条日志实战项目一、
具体分析流程链接:https://blog.csdn.net/qq_41479464/article/details/98211937用户行为日志概述:用户行为日志:用户每次访问网站时所有的行为数据(访问、浏览、搜索、点击...)用户行为轨迹、流量日志。日志数据内容:访问的系统属性: 操作系统、浏览器等等 访问特征:点击的url、从哪个url跳转过来的(referer)、页面上...
2019-08-02 16:57:18 785 6
原创 利用spark分析慕课网千万条日志实战项目流程
利用spark分析慕课网5G日志实战项目课程视频及所有资料和代码以及镜像链接:https://download.csdn.net/download/qq_41479464/11502023包括以下六个部分:用户行为日志概述:用户行为日志:用户每次访问网站时所有的行为数据(访问、浏览、搜索、点击...)用户行为轨迹、流量日志。日志数据内容:访问的系统属性: 操作系统、浏览器...
2019-08-02 16:52:38 684 1
自然语言处理,消极积极词汇 解压密码:pengliang
2022-06-29
小白使用的情人节表白神器.zip
2020-02-14
static.zip
2019-11-13
censot7下的TensorFlow环境所有依赖包及安装教程.zip
2019-08-08
javaSSM从零到企业级电商后端源码
2019-05-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人