- 博客(17)
- 资源 (7)
- 收藏
- 关注
原创 hive的基本操作
创建表CREATE TABLE table_name[(col_name data_type [COMMENT col_comment])]create table hive_wordcount(context string);加载数据到hive表LOAD DATA LOCAL INPATH 'filepath' INTO TABLE tablenameload ...
2019-07-29 17:46:14 352
原创 用python数据分析遇到的坑
持续了好长时间,看了python的底层源码,弄了多少个时辰,终于解决这个坑了。话说这个坑是样的,用python读取csv文件,或者txt文件,发现索引怎么都对应不上,因为在linux中操作,所以没有wps这一类的工具转换,直到今天我把txt文件利用excel转换一下才发现,最后一列多出一行符号。针对文件没有头部的问题,我用了代码追加头部(例如加索引,怎么都试了,就是对应不上,直到今天我偶然发现...
2019-07-29 17:45:08 203
原创 spark环境搭建从零起步,对wordcount进行处理
开始下载一个spark的集成包:基于hadoop的2.7的版本:https://www.apache.org/dyn/closer.lua/spark/spark-2.3.3/spark-2.3.3-bin-hadoop2.7.tgz然后其上传解压:tar -zxvf 加 文件名然后重命名,方便环境变量的添加:开始 配置环境变量:vi /etc/profile :这是我习惯...
2019-07-29 16:42:00 117
原创 hive启动致命问题
这个问题给我弄的泪流满面,弄了快一个月了,终于好了,解决完这个问题:Exception in thread "main" java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(java.io.IOException): Exceeded the configured number of objects 2 in th...
2019-07-28 11:40:06 713
原创 启动进程Datanode进程消失问题
可以看到子节点的DataNode没有启动起来,这个时候需要看日志了:查看日志看到datanode的id和namenode的ID不一样:我的配置文件的信息放在我指定的位置也就是上面的位置,进入这个位置,修改id:可以看到有一个version然后编辑就修改为namenode的id就可以:然后保存退出:然后到master的节点重新启动集群就可以有了:...
2019-07-28 10:10:12 1065 2
原创 hbase知识点总结
hbase是什么:列式数据库 基于hdfs构建的数据库,可以存储pb级以上的数据量 列的数据可以动态增加Hbase的 架构: hmaster:1、提供表的创建修改删除服务 2、复制RegionServerd的负载均衡 3、负...
2019-07-24 00:22:15 441
原创 使用python进行数据分析之电影评分
安徽省大数据学院”推出校园公众号以来受到广泛师生的关注,成为师生校园生活中必不可少的一部分;学校影视社为丰富师生课余生活开阔眼界和见识,为广大师生推送相关主题的优质影片信息。在请教了相关的老师以后,现在需要从影片的数据源进行影片的分析。在老师的推荐下影视社的成员找到你了,想请你帮他们完成影片数据的分析。/root/目录下有top250_f1.txt数据源,存放着部分影片信息。具体数据格式如下:...
2019-07-23 23:42:02 7153
原创 使用python把txt文件转为csv文件并且利用自己想要的分割符号
研究了几个小时终于得到自己想要的东西了:首先我的需求是把文件转换为csv文件并且需要以逗号分割# -*-coding:utf-8 -*-import csv with open('shuju.csv', 'w+', newline='',encoding='utf-8') as csvfile: spamwriter = csv.writer(csvfile,diale...
2019-07-23 23:17:26 5408
原创 hbase的web界面无法访问问题
搭建好Hadoop集群以及HBASE之后,只用60010端口无法访问HBASE web界面集群搭建 环境配置 文件配置 完全正确开始我没有搭建zookeeper我以为是这个原因,但是想到hbase有自己自带的zookeeper,而且可以正常启动,访问不了是不科学的,于是又查了一下端口。hbase启动正常,然后看到hbase-site.xml中没有配置端口,以为需要配端口,试了一下还是...
2019-07-23 14:30:36 6617 2
原创 Hive-数据倾斜和作业优化
1,数据倾斜解决: 看下key的分布 处理集中的key 原因1)、key分布不均匀(实际上还是重复) 比如 group by 或者 distinct的时候2)、数据重复,join 笛卡尔积 数据膨胀 表现 任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。 单一reduc...
2019-07-21 10:47:18 187
原创 hadoop零基础入门01
hadoop概述:什么是hadoop:Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。服务器(节点) 可以理解为我们的一台笔记本/台式机 在这里可以认为是我们的一台虚拟机 后面学习中,我们会把一台服务器称为一个节点机架 负责存放服务器的架子hadoop组件介绍:hadoop是一个统称,目前hadoop主要包含三大组件1、hdfs:是一个分布式存储框架,适合海量数据...
2019-07-16 20:46:49 751
原创 利用eclipse使用java代码操作虚拟机的hdfs的基础教程
新建一个maven项目。点击File,new,mavenProject:然后把 groupId和ArtifactId随便写上就行创建好之后打开pom.xml文件:把hdfs操作需要的依赖添加进行:<dependency> <groupId>org.apache.hadoop</groupId> ...
2019-07-16 15:39:12 1093
原创 Centos7.5安装教程配带配置网络从零起步:
Centos7.5安装教程配带配置网络从零起步:首先安装虚拟机:这一步虚拟机的安装操作:虚拟机和centos7.5我会在末尾分享百度网盘链接:链接:https://pan.baidu.com/s/1laiEDWGsuKZPH_B93HNQGQ提取码:6rc3复制这段内容后打开百度网盘手机App,操作更方便哦解压已下载的“VMware.Workstation.v14.0.0....
2019-07-05 17:57:15 2541 1
原创 UDP和TCP传输数据的方式有什么不同之处?
TCP---传输控制协议,提供的是面向连接、可靠的字节流服务。当客户和服务器彼此交换数据前,必须先在双方之间建立一个TCP连接,之后才能传输数据。TCP提供超时重发,丢弃重复数据,检验数据,流量控制等功能,保证数据能从一端传到另一端。UDP---用户数据报协议,是一个简单的面向数据报的运输层协议。UDP不提供可靠性,它只是把应用程序传给IP层的数据报发送出去,但是并不能保证它们能到...
2019-07-02 20:54:34 1677
原创 大数据下的图片类别以及图片爬取详细的过程(二)
上篇博客可入门,并且爬取图片类别和图片的过程。https://blog.csdn.net/qq_41479464/article/details/94393390下面可以在name.txt的文件中输入任何你想要的图片(2)利用关键字拿取图片的过程:类别可以直接输入,这里可以爬你想要的关键字,比如美女,恐龙,杨幂,等等的类别。默认按行读取。利用关键字爬取图片过程:...
2019-07-01 15:45:06 367
原创 大数据下的图片类别以及图片爬取详细的过程(一)
本来打算做图片与文字的相关性,后来模型没有全部弄好,爬取了200万张图片,如有需要图片可以留言,免费赠送。大数据下的图片类别以及图片爬取详细的过程:在此分为两个部分的爬虫程序,一个是爬取类别,也就是图像的标注。第二个是利用这些类别(关键字)爬取图片的程序,这时候我拿到类别了,又写了第二个爬虫,这个爬虫留作为关键字的爬取图片使用,如我拿到第一个爬虫所爬下来的类别,时候我我把类别输第二个爬虫中去,...
2019-07-01 15:33:30 1863
自然语言处理,消极积极词汇 解压密码:pengliang
2022-06-29
小白使用的情人节表白神器.zip
2020-02-14
static.zip
2019-11-13
censot7下的TensorFlow环境所有依赖包及安装教程.zip
2019-08-08
javaSSM从零到企业级电商后端源码
2019-05-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人