自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 dbeaver离线安装clickhouse连接驱动

主要介绍了Clickhouse 数据库连接工具——DBeaver相关的知识,希望对你有一定的参考价值。

2023-08-30 17:17:51 3150

转载 Java远程连接操作linux服务器,scp获取文件

Java远程连接操作linux服务器,scp获取文件

2022-08-18 14:52:34 1112

原创 python使用pandas上传csv到mysql数据库

python使用pandas上传csv到mysql数据库

2022-07-06 18:15:26 686

原创 tomcat启动直接Process finished with exit code 0

1,如果打爆方式为war则需要上述依赖,如果打包方式为jar,则需删除此依赖

2021-11-29 17:14:35 600 1

原创 spring boot 报错This application has no explicit mapping for /error

1,目录结构不对找不到2.maven依赖是否配置,scope不能为provided

2021-11-29 17:10:32 276

原创 linux,sed命令批量修改文件名和文件内容

-------批量替换文件名称for file in `ls | grep 文件名`donewfile=`echo $file | sed 's/查找的字符串/想要替换的字符串/g'`mv $file $newfiledone-------以下为示例批量替换文件名称,目的想找出 文件名称带res2openserv的文件夹,然后替换成res2servopenfor file in `ls | grep res` 这句话目的是循环查找 带res2openserv的文件...

2021-10-22 10:30:54 3003

原创 解决eclipse无法导入import javax.annotation.Resource;问题

新手学习,没有配置maven,可以直接下载javax.annotation-3.0 jar包解决地址:Download javax.annotation-3.0.jar : javax.annotation«j«Jar File Downloadhttp://www.java2s.com/Code/Jar/j/Downloadjavaxannotation30jar.htm下载完成以后保存到本地点击完成,就可...

2021-10-22 10:20:37 1946 2

原创 常用的十几个正则表达式

1 . 校验密码强度密码的强度必须是包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间。^(?=.\d)(?=.[a-z])(?=.*[A-Z]).{8,10}$ 2. 校验中文字符串仅能是中文。^[\u4e00-\u9fa5]{0,}$ 3. 由数字、26个英文字母或下划线组成的字符串^\w+$ 4. 校验E-

2017-09-14 12:00:50 302

原创 hive的简单优化

1.将大表放在后面,它会将其他表缓存起来,然后最后扫描大表2.使用相同的连接键对于三个或者多个表进行join连接的时候,如果每个on子句都使用相同的连接键,只会产生一个MapReduce job3,尽量尽早的过滤数据4.尽量原子化操作.尽量避免一个sql包含复杂逻辑5.order by :对查询结果进行全局排序,消耗时间长  和sort by : 局部排序,提高效率6,

2017-08-24 15:04:59 202

原创 spark的数据倾斜问题的解决

出现数据倾斜问题,基本可能是因为shuffle操作,在shuffle过程中,出现了数据倾斜,某些key对应的数据,远远高于其他的key1.定位问题所在a. 在自己的程序里面寻找,看看哪些地方会产生shuffle的算子,groupby,countby,reduceby,joinb.看log 看看执行到第几个stage 报错内存溢出 jvm out of memory oom 

2017-08-24 15:04:01 1094

原创 hive的最简单部署

实验十  Hive实验:部署Hive由于图片上传麻烦.如果出现图片没有显示可以直接下载附件里面的文档10.1  实验目的1. 理解Hive存在的原因;2. 理解Hive的工作原理;3. 理解Hive的体系架构;4. 并学会如何进行内嵌模式部署;5. 启动Hive,然后将元数据存储在HDFS上。10.2  实验要求1. 完成Hive的内嵌模式部署;2.

2017-08-20 09:42:25 826

原创 hadoop 2.0安装的详细过程

----------------------------------------------------------------------------------------------------------------   hadoop2.0部署Hadoop部署是学习与应用  hadoop前的必由之路,也可以说是拦路虎,许多人都会卡在这一步,因为没有 hadoop集群环境或部

2017-08-20 09:29:49 864

原创 基于情感分析的mapreduce

package dshuju1;import java.io.IOException;import java.util.Arrays;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import

2017-07-24 11:09:41 1238 2

原创 hive的一些简单实际操作

数据集三个student.txt95001,李勇,男,20,CS95002,刘晨,女,19,IS95003,王敏,女,22,MA95004,张立,男,19,IS95005,刘刚,男,18,MA95006,孙庆,男,23,CS95007,易思玲,女,19,MA95008,李娜,女,18,CS95009,梦圆圆,女,18,MA95010,孔小涛,男,19,CS95011,包

2017-07-05 10:45:47 442

原创 topk在mapreduce下面的统计加排序的实现

给定的原始数据集如下:All of us have read thrilling stories in which the hero had only a limited and specified time to live. Sometimes it was as long as a year, sometimes as short as 24 hours. But always we we

2017-07-04 15:46:18 348

原创 朴素贝叶斯的mapreduce的java实现

模仿一些大神,盗版了一个版本原始数据的实例,1,0代表这些数据的标签,也就是数据按照1,0分类1:B,C,D,F,E,L0:A,C,E,K1:F,A,D,I写了4部分 第一部分 算出每个标签下面的单词总数的统计 输出结果样式 0 12 1 19意思是标签的单词有12个,1标签下面的单词有19个第二部分 算出一共要有多少个不同的单词  结果输出样式 sum  20 意思是数据

2017-07-02 16:54:58 820

原创 kmeans基于mapreduce的实现

1. main函数读取质心文件2. 将质心的字符串放到configuration中3. 在mapper类重写setup方法,获取到configuration的质心内容,解析成二维数组的形式,代表质心4. mapper类中的map方法读取样本文件,跟所有的质心比较,得出每个样本跟哪个质心最近,然后输出5. reducer类中重新计算质心,如果重新计算出来的质心跟进来时的质心一致,那么自定义的coun

2017-06-27 11:20:41 1271

原创 hadf的常见命令

hadoop fs -mkdir /tmp/input              在HDFS上新建文件夹    Hadoop fs -put input1.txt /tmp/input  把本地文件input1.txt传到HDFS的/tmp/input目录下   hadoop fs -get  input1.txt /tmp/input/input1.txt  把HDFS文件拉到本

2017-05-31 15:01:02 1519

原创 python的切片的理解

from numpy import *# data = 'ndiayedehehe'# data = data[2::6]# print (data)#列表的切片# data = [[1,1],[2,2],[3,3],[4,4],[5,5],[6,6]]# print(data)# print(type(data))# [[1, 1], [2, 2], [3, 3]

2017-05-18 11:29:30 406

原创 hadoop的一些基本问题

1给定a,b 二个文件,各存放50亿各url每个url各存64个字节,内存限制是4g,找出a,b文件共同的url哈希表 2有1亿个数,随机分布,求前一千个最大的数,内存限制为100兆分块 3有2.5亿个正整数中找出不重复的整数。内存2.5g为每个整数设置标志位,有2位组成00 01 10 11分别表示没出现过,出现过1次,出现过多次,不考虑分别遍

2017-05-14 10:57:24 320

原创 Hive的基本增删改查代码

创建一个简单表CREATE TABLE table()创建外部表CTRAT EXTERNAL TABLE page_view(viewTime INT,userid BIGINT,ROW FORMAT DELIMITED FIELDS TERMINATED BY//指定了列分隔符为\001COLLECTION ITEMS TERMINATED B

2017-05-11 14:21:57 4076

原创 电话号码上传下载流量的hadoop代码简单实现

import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Reducer;public class DataCount {pub

2017-05-09 11:22:54 588

原创 简单的单词个数统计的mapreduce 的代码实现

简单的单词个数统计的mapreduce 的代码实现的解读数据格式如下hello tomhello jerryhello kittyhello worldhello tom5行内容,分别统计每个单词出现的次数分别建了3个类第一个 主函数wordcount的类public class WordCount {public static void mai

2017-05-02 09:35:00 1799

原创 关于在windows下面虚拟机创建linux的hadoop配置

1、 时刻关注命令行的当前目录和当前用户 如图,hadoop代表当前的用户为hadoop,master代表当前主机名,~代表当前所在的目录。查看当前目录的完成路径命令为pwd2、 若在linux中执行命令时遇到permission denied,说明当前用户权限不够,可能需要切换至root用户执行(su命令),建议执行完后立刻退出root登录(输入命令exit) Linux:

2017-04-25 12:43:42 750

原创 K-Means算法

K-Means算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心(这个点可以不是样本点),从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。 下面给出Python下面的算法!usr/bin/python! -- coding:utf-8 --from numpy import * import matplotlib.py

2017-04-23 21:00:43 376

原创 深度学习的目标

深度学习介绍TensorFlow入门MINIST数字设别问题深层神经网络卷积神经网络图像数据处理循环神经网络TensorFlow实现深度强化学习TensorBoardTensorFlow计算加速(多Gpu并行几分布式进行)tf Learn 从入门到精通tf Contrib组件

2017-04-16 11:42:19 1279

原创 数据挖掘的学习目标

python熟悉数据挖掘流程数据挖掘的分类监督学习 分类与回归非监督学习 分类聚类推荐系统关联规则的挖掘熟悉常用数据挖掘算法和实现

2017-04-16 09:05:17 1601

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除