自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (7)
  • 收藏
  • 关注

原创 hive的基本操作

创建表CREATE TABLE table_name[(col_name data_type [COMMENT col_comment])]create table hive_wordcount(context string);加载数据到hive表LOAD DATA LOCAL INPATH 'filepath' INTO TABLE tablenameload ...

2019-07-29 17:46:14 352

原创 用python数据分析遇到的坑

持续了好长时间,看了python的底层源码,弄了多少个时辰,终于解决这个坑了。话说这个坑是样的,用python读取csv文件,或者txt文件,发现索引怎么都对应不上,因为在linux中操作,所以没有wps这一类的工具转换,直到今天我把txt文件利用excel转换一下才发现,最后一列多出一行符号。针对文件没有头部的问题,我用了代码追加头部(例如加索引,怎么都试了,就是对应不上,直到今天我偶然发现...

2019-07-29 17:45:08 203

原创 spark环境搭建从零起步,对wordcount进行处理

开始下载一个spark的集成包:基于hadoop的2.7的版本:https://www.apache.org/dyn/closer.lua/spark/spark-2.3.3/spark-2.3.3-bin-hadoop2.7.tgz然后其上传解压:tar -zxvf 加 文件名然后重命名,方便环境变量的添加:开始 配置环境变量:vi /etc/profile :这是我习惯...

2019-07-29 16:42:00 117

原创 centos7.5ping不通百度的解决方法

一直未知的服务:加入上面的两行,完美解决

2019-07-28 19:21:02 838

原创 hive启动致命问题

这个问题给我弄的泪流满面,弄了快一个月了,终于好了,解决完这个问题:Exception in thread "main" java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(java.io.IOException): Exceeded the configured number of objects 2 in th...

2019-07-28 11:40:06 713

原创 启动进程Datanode进程消失问题

可以看到子节点的DataNode没有启动起来,这个时候需要看日志了:查看日志看到datanode的id和namenode的ID不一样:我的配置文件的信息放在我指定的位置也就是上面的位置,进入这个位置,修改id:可以看到有一个version然后编辑就修改为namenode的id就可以:然后保存退出:然后到master的节点重新启动集群就可以有了:...

2019-07-28 10:10:12 1065 2

原创 hbase知识点总结

hbase是什么:列式数据库 基于hdfs构建的数据库,可以存储pb级以上的数据量 列的数据可以动态增加Hbase的 架构: hmaster:1、提供表的创建修改删除服务 2、复制RegionServerd的负载均衡 3、负...

2019-07-24 00:22:15 441

原创 使用python进行数据分析之电影评分

安徽省大数据学院”推出校园公众号以来受到广泛师生的关注,成为师生校园生活中必不可少的一部分;学校影视社为丰富师生课余生活开阔眼界和见识,为广大师生推送相关主题的优质影片信息。在请教了相关的老师以后,现在需要从影片的数据源进行影片的分析。在老师的推荐下影视社的成员找到你了,想请你帮他们完成影片数据的分析。/root/目录下有top250_f1.txt数据源,存放着部分影片信息。具体数据格式如下:...

2019-07-23 23:42:02 7153

原创 使用python把txt文件转为csv文件并且利用自己想要的分割符号

研究了几个小时终于得到自己想要的东西了:首先我的需求是把文件转换为csv文件并且需要以逗号分割# -*-coding:utf-8 -*-import csv with open('shuju.csv', 'w+', newline='',encoding='utf-8') as csvfile: spamwriter = csv.writer(csvfile,diale...

2019-07-23 23:17:26 5408

原创 hbase的web界面无法访问问题

搭建好Hadoop集群以及HBASE之后,只用60010端口无法访问HBASE web界面集群搭建 环境配置 文件配置 完全正确开始我没有搭建zookeeper我以为是这个原因,但是想到hbase有自己自带的zookeeper,而且可以正常启动,访问不了是不科学的,于是又查了一下端口。hbase启动正常,然后看到hbase-site.xml中没有配置端口,以为需要配端口,试了一下还是...

2019-07-23 14:30:36 6617 2

原创 Hive-数据倾斜和作业优化

1,数据倾斜解决: 看下key的分布 处理集中的key 原因1)、key分布不均匀(实际上还是重复) 比如 group by 或者 distinct的时候2)、数据重复,join 笛卡尔积 数据膨胀 表现 任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。 单一reduc...

2019-07-21 10:47:18 187

原创 hadoop零基础入门01

hadoop概述:什么是hadoop:Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。服务器(节点) 可以理解为我们的一台笔记本/台式机 在这里可以认为是我们的一台虚拟机 后面学习中,我们会把一台服务器称为一个节点机架 负责存放服务器的架子hadoop组件介绍:hadoop是一个统称,目前hadoop主要包含三大组件1、hdfs:是一个分布式存储框架,适合海量数据...

2019-07-16 20:46:49 751

原创 利用eclipse使用java代码操作虚拟机的hdfs的基础教程

新建一个maven项目。点击File,new,mavenProject:然后把 groupId和ArtifactId随便写上就行创建好之后打开pom.xml文件:把hdfs操作需要的依赖添加进行:<dependency> <groupId>org.apache.hadoop</groupId> ...

2019-07-16 15:39:12 1093

原创 Centos7.5安装教程配带配置网络从零起步:

Centos7.5安装教程配带配置网络从零起步:首先安装虚拟机:这一步虚拟机的安装操作:虚拟机和centos7.5我会在末尾分享百度网盘链接:链接:https://pan.baidu.com/s/1laiEDWGsuKZPH_B93HNQGQ提取码:6rc3复制这段内容后打开百度网盘手机App,操作更方便哦解压已下载的“VMware.Workstation.v14.0.0....

2019-07-05 17:57:15 2541 1

原创 UDP和TCP传输数据的方式有什么不同之处?

TCP---传输控制协议,提供的是面向连接、可靠的字节流服务。当客户和服务器彼此交换数据前,必须先在双方之间建立一个TCP连接,之后才能传输数据。TCP提供超时重发,丢弃重复数据,检验数据,流量控制等功能,保证数据能从一端传到另一端。UDP---用户数据报协议,是一个简单的面向数据报的运输层协议。UDP不提供可靠性,它只是把应用程序传给IP层的数据报发送出去,但是并不能保证它们能到...

2019-07-02 20:54:34 1677

原创 大数据下的图片类别以及图片爬取详细的过程(二)

上篇博客可入门,并且爬取图片类别和图片的过程。https://blog.csdn.net/qq_41479464/article/details/94393390下面可以在name.txt的文件中输入任何你想要的图片(2)利用关键字拿取图片的过程:类别可以直接输入,这里可以爬你想要的关键字,比如美女,恐龙,杨幂,等等的类别。默认按行读取。利用关键字爬取图片过程:...

2019-07-01 15:45:06 367

原创 大数据下的图片类别以及图片爬取详细的过程(一)

本来打算做图片与文字的相关性,后来模型没有全部弄好,爬取了200万张图片,如有需要图片可以留言,免费赠送。大数据下的图片类别以及图片爬取详细的过程:在此分为两个部分的爬虫程序,一个是爬取类别,也就是图像的标注。第二个是利用这些类别(关键字)爬取图片的程序,这时候我拿到类别了,又写了第二个爬虫,这个爬虫留作为关键字的爬取图片使用,如我拿到第一个爬虫所爬下来的类别,时候我我把类别输第二个爬虫中去,...

2019-07-01 15:33:30 1863

自然语言处理,消极积极词汇 解压密码:pengliang

自然语言处理,以及消极积极词汇,以及中文文本酒店评论数据集: 过了好久才想起来评价,记得离火车站超级近,不过方便的同时必然会觉得比较吵。韩日旅游团住这里的很多,前台服务冷淡。两个人住标准间,只给一张房卡,还很挑衅的看我。气的没心情。 宾馆反馈 2008年7月17日 : 酒店针对客人提出的问题,现已认真整改,希望每一位入住渤海明珠酒店的您都能高兴入住,满意而归。

2022-06-29

小白使用的情人节表白神器.zip

本资源免费,是为了给广大单身程序员大学生一个福利,专门为程序员小白所使用的情人节表白神器,简单易懂,操作方便。希望可以有用。如果有帮助到大家,麻烦各位给个好评,谢谢了。

2020-02-14

static.zip

基于ElasticSearch的搜房网实战其中的静态资源代码,因为博客再更新,每一章的代码,但是静态资源多,所以只能通过这个方式了,等后期全部代码写好,会再上传代github.

2019-11-13

java蓝桥算法.zip

送给喜欢蓝桥杯java算法的人蓝桥杯java历年真题及答案整理(共129道题目及答案

2019-10-21

系统架构设计师历年真题.zip

2006年到2017年所有架构师历年真题及解析,并且包含论文。

2019-08-08

censot7下的TensorFlow环境所有依赖包及安装教程.zip

详细安装教程见博客:https://blog.csdn.net/qq_41479464/article/details/98876063 censot7: 所需安装包 Python-3.6.4.tgz tensorflow-1.7.0rc0-cp36-cp36m-linux_x86_64.whl protobuf-3.5.2-cp36-cp36m-manylinux1_x86_64.whl six-1.11.0-py2.py3-none-any.whl gast-0.2.0.tar.gz grpcio-1.10.0-cp36-cp36m-manylinux1_x86_64.whl absl-py-0.1.11.tar.gz numpy-1.14.2-cp36-cp36m-manylinux1_x86_64.whl tensorboard-1.6.0-py3-none-any.whl html5lib-0.9999999.tar.gz Werkzeug-0.14.1-py2.py3-none-any.whl bleach-1.5.0-py2.py3-none-any.whl termcolor-1.1.0.tar.gz astor-0.6.2-py2.py3-none-any.whl wheel-0.30.0-py2.py3-none-any.whl

2019-08-08

javaSSM从零到企业级电商后端源码

此项目使用的技术:(注意一下,项目只需要window环境也可进行开发,只要有idea和jdk,tomcat,maven配置FTP的安装,即可进行开发使用)具体教程见本博客: mybatis spring springmvc技术 环境参数 操作系统 CentOS 6.8 64位、Windows7 64位 jdk版本 7u80 64位 git版本 2.8.0 Maven版本 3.0.5 MySQL版本 mysql-server-5.1.73 Nginx版本 nginx-1.10.2.tar.gz vsftpd版本 vsftpd-2.2.2-21.el6.x86_64 开发工具及版本 idea 15.0.6 技术栈 SSM/Guava/Jackson/Joda/注解 开发语言 Java

2019-05-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除