自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 hadoop

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import org.apache.hadoop.mapreduce.lib

2022-05-08 17:09:09 459

原创 爬虫———图形

1import numpy as npimport matplotlib.pyplot as pltx = np.array([1,2,3,4,5,6,7,8])y = np.array([1,4,9,16,7,11,23,18])sizes =np.array([20,50,100,200,500,1000,60,90])colors =np.array(["red","green","black","orange","purple","beige","cyan","magenta"])#.

2022-05-08 17:07:37 577

原创 hbase思维导图

2022-05-08 11:54:37 520

原创 索引参数优化

参数USE test;CREATE TABLE IF NOT EXISTS t(id INT,num INT);CREATE INDEX ix_num ON t(num);#未使用索引SELECT id FROM t WHERE num IS NULL;#使用索引SELECT id FROM t WHERE num=0;#未使用索引SELECT * FROM t WHERE num != 5;SELECT * FROM t WHERE num <> 5;#避免使用orS

2022-05-01 20:25:28 103

原创 pandas

import pandas as pddf=pd.read_csv('123.csv')# print(df)#删除空值# df2=df.dropna()# print(df2)#判断空值# print(df['NUM_BEDROOMS'].isnull())#指定空值类型# missing_values = ["n/a","na","--","NaN"]# df=pd.read_csv('123.csv',na_values=missing_values)# # df.dro

2022-05-01 20:23:12 55

原创 sql优化查询

#创建索引CREATE INDEX IX ProcessID ON T1(processid);#a语句不使用索引SELECT * FROM T1 WHERE nextprocess = 1 AND processid IN (8,32,45);#b语句强制使用索引SELECT * FROM T1 FROM INDEX(IX_ProcessID)WHERE nextprocess = 1 AND processid IN (8,32,45);CREATE TABLE IF NOT EXIST

2022-04-24 20:21:09 79

原创 java操作hdfs

package cn.itcast.hadoop.hdfs;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net.URI;import j

2022-04-24 20:06:50 62

原创 numpy函数

import numpy as npprint ('连接两个字符串:')print (np.char.add(['hello'],[' xyz']))print ('\n')print ('连接示例:')print(np.char.add(['hello','hi'],['abc','xyz']))print(np.char.multiply('Runoob',3))# np.char.center(str , width,fillchar) :# str: 字符串,width: 长

2022-04-24 19:33:33 444

原创 HBase

CREATE DATABASE IF NOT EXISTS shop DEFAULT CHARSET utf8;USE shop;#用户表CREATE TABLE IF NOT EXISTS USER(id INT PRIMARY KEY AUTO_INCREMENT COMMENT '用户Id',username VARCHAR(50) NOT NULL COMMENT '用户名',PASSWORD VARCHAR(50) NOT NULL COMMENT '密码',regis...

2022-04-10 20:16:20 1528

原创 Linux的网络基础

1网络两类局域网: (LocalAreaNetwork,LAN)是指范围在几百米到十几公里内办公楼群或校园内的计算机相互连接所构成的计算机网络。城域网: (MetropolitanAreaNetwork,MAN)所采用的技术基本上与局域网相类似,只是规模上要大一些。城域网既可以覆盖相距不远的几栋办公楼,也可以覆盖一个城。广域网: (WideAreaNetwork,WAN)通常跨接很大的物理范围,如一个国家。除了上述的划分,网络还可以按照所有者分为公网、私网是两种Internet的接入方式。公

2022-04-10 19:52:09 2344

原创 爬虫复习总结

from urllib import requestimport urllibimport refrom http import cookiejar#1.爬虫入门程序:调度器,url管理器,下载器,解析器,应用#定义urlurl='http://www.taobao.com'#定义请求req=request.Request(url)#下载页面resp=request.urlopen(req)#使用的是默认下载器print(resp.read().decode('utf-8'))#

2022-04-10 19:21:29 527

原创 Hadoop-Linux的权限管理操作

一、权限概述总述:Linux系统一般将文件可存/取访问的身份分为3个类别:owner、group、others,且3种身份各有read、write、execute等权限。1、权限介绍什么是权限?在多用户(可以不同时)计算机系统的管理中,权限是指某个特定的用户具有特定的系统资源使用权力,像是文件夹、特定系统指令的使用或存储量的限制。Linux的权限介绍要设置权限,就需要知道文件的一些基本属性和权限的分配规则。在Linux中,ls命令常用来查看文件的属性,用于显示文件的文件名和相关属性。二、

2022-04-03 19:51:24 2462

原创 python-正则表达

import re#定义正则规则rexg=re.compile(r'\d*\w')res=re.search(rexg,'5555555555555dddddddd')print(res)#定义正则规则rexg2=re.compile(r'\d+\w*')res2=re.search(rexg2,'9999dddddddd')print(res2)#定义正则规则rexg3=re.compile(r'\d?ddddd')res3=re.search(rexg3,'999dddddd

2022-04-03 19:21:47 487

原创 HBase-存储

USE aaa;#创建存储过程DELIMITER $CREATE PROCEDURE testa ()BEGIN SELECT * FROM student; SELECT * FROM cj;END $DELIMITER ;#调用存储过程CALL testa();#创建存储过程DELIMITER $CREATE PROCEDURE test2()BEGIN #声明变量类型 DECLARE un VARCHAR(32) ...

2022-04-03 18:03:15 2212

原创 HBase 索引

1.什么是索引?一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,在生产环境中,我们遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,因此对查询语句的优化显然是重中之重。说起加速查询,就不得不提到索引了。2.为什么要有索引呢?索引在MySQL中也叫做“键”,是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能 非常关键,尤其是当表中的数据量越来越大时,索引对于性能的影响愈发重要。 索引优化应该是对查询性能优化最有效的手段了。索引能够轻易将查询性能

2022-03-20 20:01:58 552

原创 Hadoop,Shell脚本

Shell基础一、关于shell1、什么是shell什么是shell?Shell(外壳)是一个用C语言编写的程序,它是用户使用Linux的桥梁。Shell既是一种命令语言,又是一种程序设计语言。Shell是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。什么是脚本?脚本简单地说就是一条条的文字命令,这些文字命令是可以看到的(如可以用记事本打开查看、编辑)。常见的脚本:JavaScript(JS,前端),VBScript,ASP,JSP,PHP(后端),SQL(数据

2022-03-20 19:52:53 72

原创 Python,匹配

from bs4 import BeautifulSoupfrom urllib import request#定义请求req=request.Request('http://www.baidu.com')#定义下载器opener=request.build_opener()#下载页面resp=opener.open(req)print(resp.read().decode('utf-8'))#定义解析器soup= BeautifulSoup(resp,'html.parser',.

2022-03-20 19:37:55 127

原创 Python网络爬虫

1,爬虫入门程序#导入功能库 urllib2import urllib2#调用urllib2库的urlopen方法 第一个参数url即为URLresponse = urllib2.urlopen("http://www.baidu.com")#response 对象有一个 read 方法,可以返回获取到的网页内容。print response.read()2,爬虫程序添加data,header,然后post请求#导入功能库库名 urllib urllib2 import ...

2022-03-13 19:58:32 1387

原创 Hadoop分布式框架-陈宇婷

1,基础指令语法:(1)#ls含义:列出当前工作目录下的所有文件/文件夹的名称(2)pwd指令:print working directory,打印当前工作目录语法:#ls 选项路径(3)cd指令:用于切换当前的工作目录语法:#cd 路径(4)mkdir指令:make directory,创建目录语法:mkdir 路径(5)touch指令:创建文件语法:touch 文件路径(6)cp指令:复制语法:#cp被复制的文档路径文档被复制到的路径案例(7)mv指令:移

2022-03-12 20:26:53 1614

原创 HBase基础语法—陈宇婷

CREATE DATABASE IF NOT EXISTS jcgf DEFAULT CHARSET utf8;USE jcgf ;#建学生表CREATE TABLE IF NOT EXISTS stu( NO INT PRIMARY KEY AUTO_INCREMENT, NAME VARCHAR(20));INSERT INTO stu(NAME)VALUES("蒋丞"),("顾飞"),("江停"),("严峫"),("秦川");#建科目表CREATE TAB...

2022-03-12 19:34:03 1409

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除