2019年07月_一曲无痕奈何

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 hive的基本操作

创建表CREATE TABLE table_name[(col_name data_type [COMMENT col_comment])]create table hive_wordcount(context string);加载数据到hive表LOAD DATA LOCAL INPATH 'filepath' INTO TABLE tablenameload ...

2019-07-29 17:46:14 352

持续了好长时间，看了python的底层源码，弄了多少个时辰，终于解决这个坑了。话说这个坑是样的，用python读取csv文件，或者txt文件，发现索引怎么都对应不上，因为在linux中操作，所以没有wps这一类的工具转换，直到今天我把txt文件利用excel转换一下才发现，最后一列多出一行符号。针对文件没有头部的问题，我用了代码追加头部（例如加索引，怎么都试了，就是对应不上，直到今天我偶然发现...

2019-07-29 17:45:08 203

原创 spark环境搭建从零起步，对wordcount进行处理

开始下载一个spark的集成包：基于hadoop的2.7的版本：https://www.apache.org/dyn/closer.lua/spark/spark-2.3.3/spark-2.3.3-bin-hadoop2.7.tgz然后其上传解压：tar -zxvf 加文件名然后重命名，方便环境变量的添加：开始配置环境变量：vi /etc/profile :这是我习惯...

2019-07-29 16:42:00 117

原创 centos7.5ping不通百度的解决方法

一直未知的服务：加入上面的两行，完美解决

2019-07-28 19:21:02 838

原创 hive启动致命问题

这个问题给我弄的泪流满面，弄了快一个月了，终于好了，解决完这个问题：Exception in thread "main" java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(java.io.IOException): Exceeded the configured number of objects 2 in th...

2019-07-28 11:40:06 713

原创启动进程Datanode进程消失问题

可以看到子节点的DataNode没有启动起来，这个时候需要看日志了：查看日志看到datanode的id和namenode的ID不一样：我的配置文件的信息放在我指定的位置也就是上面的位置，进入这个位置，修改id:可以看到有一个version然后编辑就修改为namenode的id就可以：然后保存退出：然后到master的节点重新启动集群就可以有了：...

2019-07-28 10:10:12 1065 2

原创 hbase知识点总结

hbase是什么：列式数据库基于hdfs构建的数据库，可以存储pb级以上的数据量列的数据可以动态增加Hbase的架构： hmaster:1、提供表的创建修改删除服务 2、复制RegionServerd的负载均衡 3、负...

2019-07-24 00:22:15 441

原创使用python进行数据分析之电影评分

安徽省大数据学院”推出校园公众号以来受到广泛师生的关注，成为师生校园生活中必不可少的一部分；学校影视社为丰富师生课余生活开阔眼界和见识，为广大师生推送相关主题的优质影片信息。在请教了相关的老师以后，现在需要从影片的数据源进行影片的分析。在老师的推荐下影视社的成员找到你了，想请你帮他们完成影片数据的分析。/root/目录下有top250_f1.txt数据源，存放着部分影片信息。具体数据格式如下:...

2019-07-23 23:42:02 7153

原创使用python把txt文件转为csv文件并且利用自己想要的分割符号

研究了几个小时终于得到自己想要的东西了：首先我的需求是把文件转换为csv文件并且需要以逗号分割# -*-coding:utf-8 -*-import csv with open('shuju.csv', 'w+', newline='',encoding='utf-8') as csvfile: spamwriter = csv.writer(csvfile,diale...

2019-07-23 23:17:26 5408

原创 hbase的web界面无法访问问题

搭建好Hadoop集群以及HBASE之后，只用60010端口无法访问HBASE web界面集群搭建环境配置文件配置完全正确开始我没有搭建zookeeper我以为是这个原因，但是想到hbase有自己自带的zookeeper，而且可以正常启动，访问不了是不科学的，于是又查了一下端口。hbase启动正常，然后看到hbase-site.xml中没有配置端口，以为需要配端口，试了一下还是...

2019-07-23 14:30:36 6617 2

原创 Hive-数据倾斜和作业优化

1，数据倾斜解决：看下key的分布处理集中的key 原因1)、key分布不均匀（实际上还是重复）比如 group by 或者 distinct的时候2)、数据重复，join 笛卡尔积数据膨胀表现任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。单一reduc...

2019-07-21 10:47:18 187

原创 hadoop零基础入门01

hadoop概述：什么是hadoop:Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。服务器(节点) 可以理解为我们的一台笔记本/台式机在这里可以认为是我们的一台虚拟机后面学习中，我们会把一台服务器称为一个节点机架负责存放服务器的架子hadoop组件介绍：hadoop是一个统称，目前hadoop主要包含三大组件1、hdfs：是一个分布式存储框架，适合海量数据...

2019-07-16 20:46:49 751

原创利用eclipse使用java代码操作虚拟机的hdfs的基础教程

新建一个maven项目。点击File，new，mavenProject：然后把 groupId和ArtifactId随便写上就行创建好之后打开pom.xml文件：把hdfs操作需要的依赖添加进行：<dependency> <groupId>org.apache.hadoop</groupId> ...

2019-07-16 15:39:12 1093

原创 Centos7.5安装教程配带配置网络从零起步：

Centos7.5安装教程配带配置网络从零起步：首先安装虚拟机：这一步虚拟机的安装操作：虚拟机和centos7.5我会在末尾分享百度网盘链接:链接：https://pan.baidu.com/s/1laiEDWGsuKZPH_B93HNQGQ提取码：6rc3复制这段内容后打开百度网盘手机App，操作更方便哦解压已下载的“VMware.Workstation.v14.0.0....

2019-07-05 17:57:15 2541 1

原创 UDP和TCP传输数据的方式有什么不同之处?

TCP---传输控制协议,提供的是面向连接、可靠的字节流服务。当客户和服务器彼此交换数据前，必须先在双方之间建立一个TCP连接，之后才能传输数据。TCP提供超时重发，丢弃重复数据，检验数据，流量控制等功能，保证数据能从一端传到另一端。UDP---用户数据报协议，是一个简单的面向数据报的运输层协议。UDP不提供可靠性，它只是把应用程序传给IP层的数据报发送出去，但是并不能保证它们能到...

2019-07-02 20:54:34 1677

原创大数据下的图片类别以及图片爬取详细的过程（二）

上篇博客可入门，并且爬取图片类别和图片的过程。https://blog.csdn.net/qq_41479464/article/details/94393390下面可以在name.txt的文件中输入任何你想要的图片（2）利用关键字拿取图片的过程：类别可以直接输入，这里可以爬你想要的关键字，比如美女，恐龙，杨幂，等等的类别。默认按行读取。利用关键字爬取图片过程:...

2019-07-01 15:45:06 367

原创大数据下的图片类别以及图片爬取详细的过程（一）

本来打算做图片与文字的相关性，后来模型没有全部弄好，爬取了200万张图片，如有需要图片可以留言，免费赠送。大数据下的图片类别以及图片爬取详细的过程：在此分为两个部分的爬虫程序，一个是爬取类别，也就是图像的标注。第二个是利用这些类别（关键字）爬取图片的程序，这时候我拿到类别了，又写了第二个爬虫，这个爬虫留作为关键字的爬取图片使用，如我拿到第一个爬虫所爬下来的类别，时候我我把类别输第二个爬虫中去，...

2019-07-01 15:33:30 1863

自然语言处理，消极积极词汇解压密码：pengliang

自然语言处理,以及消极积极词汇，以及中文文本酒店评论数据集：过了好久才想起来评价，记得离火车站超级近，不过方便的同时必然会觉得比较吵。韩日旅游团住这里的很多，前台服务冷淡。两个人住标准间，只给一张房卡，还很挑衅的看我。气的没心情。宾馆反馈 2008年7月17日：酒店针对客人提出的问题，现已认真整改，希望每一位入住渤海明珠酒店的您都能高兴入住，满意而归。

2022-06-29

小白使用的情人节表白神器.zip

本资源免费，是为了给广大单身程序员大学生一个福利，专门为程序员小白所使用的情人节表白神器，简单易懂，操作方便。希望可以有用。如果有帮助到大家，麻烦各位给个好评，谢谢了。

2020-02-14

static.zip

基于ElasticSearch的搜房网实战其中的静态资源代码，因为博客再更新，每一章的代码，但是静态资源多，所以只能通过这个方式了，等后期全部代码写好，会再上传代github.

2019-11-13

java蓝桥算法.zip

送给喜欢蓝桥杯java算法的人蓝桥杯java历年真题及答案整理(共129道题目及答案

2019-10-21

系统架构设计师历年真题.zip

2006年到2017年所有架构师历年真题及解析，并且包含论文。

2019-08-08

censot7下的TensorFlow环境所有依赖包及安装教程.zip

详细安装教程见博客：https://blog.csdn.net/qq_41479464/article/details/98876063 censot7：所需安装包 Python-3.6.4.tgz tensorflow-1.7.0rc0-cp36-cp36m-linux_x86_64.whl protobuf-3.5.2-cp36-cp36m-manylinux1_x86_64.whl six-1.11.0-py2.py3-none-any.whl gast-0.2.0.tar.gz grpcio-1.10.0-cp36-cp36m-manylinux1_x86_64.whl absl-py-0.1.11.tar.gz numpy-1.14.2-cp36-cp36m-manylinux1_x86_64.whl tensorboard-1.6.0-py3-none-any.whl html5lib-0.9999999.tar.gz Werkzeug-0.14.1-py2.py3-none-any.whl bleach-1.5.0-py2.py3-none-any.whl termcolor-1.1.0.tar.gz astor-0.6.2-py2.py3-none-any.whl wheel-0.30.0-py2.py3-none-any.whl

2019-08-08

javaSSM从零到企业级电商后端源码

此项目使用的技术：（注意一下，项目只需要window环境也可进行开发，只要有idea和jdk,tomcat，maven配置FTP的安装，即可进行开发使用）具体教程见本博客： mybatis spring springmvc技术环境参数操作系统 CentOS 6.8 64位、Windows7 64位 jdk版本 7u80 64位 git版本 2.8.0 Maven版本 3.0.5 MySQL版本 mysql-server-5.1.73 Nginx版本 nginx-1.10.2.tar.gz vsftpd版本 vsftpd-2.2.2-21.el6.x86_64 开发工具及版本 idea 15.0.6 技术栈 SSM/Guava/Jackson/Joda/注解开发语言 Java

2019-05-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

自然语言处理，消极积极词汇 解压密码：pengliang