赵.俊杰-CSDN博客

原创 MapReduce——赵俊杰

Map类import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;/**LongWritable 偏移量 long,表示改行在文件中的位置，而不是行号* Text map阶段的..

2022-05-08 23:20:34 164

原创数据库复习----赵俊杰

三个数据类型：字符串：varchar,char日期：data,time数值：int,float,double增删改查：增：insert into aaa(name,age)values("zhaojie",12);删：delete from aaa where name = "zhaojie";改：update aaa age = 19 where name = "zhaojie";查：select * from aaa;//查询全表select * from aaa w

2022-05-08 23:17:42 234

原创 python四种统计图————赵俊杰

线形图import matplotlib.pyplot as mplimport numpy as np#定义数据ypoints=np.array([1,3,9,25,12,32,5,1])#数据插入到图表# mpl.plot(ypoints,'o:g')# mpl.plot(ypoints,marker='o',linestyle=':',color='g')mpl.plot(ypoints,marker='o',ls=':',c='r')mpl.plot(ypoints,mar.

2022-05-08 22:56:24 1205

原创 hadoop mapper

import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException; public class WordCountMap extends Mapper<LongWritable,Text, .

2022-05-01 20:05:39 194

原创 sql查询优化

CREATE TABLE IF NOT EXISTS t(id INT,num INT DEFAULT 0,NAME VARCHAR(20)); CREATE INDEX ix_num ON t(num); DELIMITER $CREATE PROCEDURE t()BEGIN#定义一个循环变量DECLARE i INT DEFAULT 0;DECLARE d INT DEFAULT 0;WHILE(i < 1000) DO BEGIN SELECT i; SET i.

2022-05-01 20:03:48 306

原创 python pandas和数据清理

pandasimport pandas as pdprint(pd.__version__)#定义字典mydataset = { 'sites' : ["Google","Runoob","WiKi"], 'number' : [1,2,3]}#将字典转换为dataframe，才能处理mydf=pd.DataFrame(mydataset)print(mydf)a = [1,2,3]mysr = pd.Series(a,name="aha")print(mys

2022-05-01 20:02:11 163

原创 sql优化查询

1.避免丶情况 !=,<>, is null,is not null,in,not in;例如a语句SELECT COUNT(*) FROM emp WHERE age IN(SELECT age FROM emp WHERE id > 100);b语句SELECT COUNT(*) FROM emp WHERE EXISTS(SELECT age FROM emp WHERE id > 100);使用in时不能使用索引2.合理使用exists ， not exi

2022-04-24 23:32:30 91

原创 python----numpy数组

import numpy as npa = np.dtype(np.int32)print(a)# 数据类型对象b = np.dtype(np.float32)# b = np.array([1, 2, 3])# b = np.dtype('i4')# 创建数组，指定数据类型c = np.array([1, 2, 3], dtype=b)print(c)# 定义数据类型dt = np.dtype([('age', np.int8)])# 用dt数据类型创建数组e = np.ar.

2022-04-24 23:29:29 455

原创 java操作hdfs

1.先配置windows的环境变量2.创建工程3.导入lib配置包4.输入Java语句import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net.

2022-04-24 23:27:18 118

原创 python爬虫周学习总结___xpath

xpath安装：pip install lxml使用:1.导入from lxml import etree2.from lxml import etreewb_data = """ <div> <ul> <li class="item-0"><a href="link1.html">first item</li> &l

2022-04-10 19:52:09 164

原创 hbase周学习总结__范式（作业）

第一范式(1NF)：数据表的每一列都要保持它的原子特性，也就是列不能再被分割。第二范式(2NF)：属性必须完全依赖于主键，消除部分依赖。第三范式（3NF）：消除传递依赖。USE test;CREATE TABLE IF NOT EXISTS username(username VARCHAR(20) PRIMARY KEY,PASSWORD VARCHAR(20),DATE DATE,birth DATE);CREATE TABLE IF NOT EXISTS 浏览收藏(u

2022-04-10 19:48:04 1129

原创 hadoop周学习总结_hadoop安装(作业)

1.准备Linux环境 1.1 开启网络,ifconfig指令查看ip 1.2 修改主机名为自己名字(hadoop) vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop 1.3修改主机名和IP的映射关系 vim /etc/hosts 192.168.182.128 hadoop 1.4关...

2022-04-10 19:40:24 304

原创 Linux周学习————赵俊杰

权限语法:#chmod 选项权限模式文档2.数字形式2. Linux自有服务设置主机名：1.临时设置主机名，需要切换用户使之生效#hostname 设置的主机名3.ssh服务作用：远程连接协议，远程文件传输协议协议使用的端口号：默认22...

2022-04-03 18:39:08 623

原创 python爬虫周学习___赵俊杰

Scrapy安装与使用打开命令提示符下载安装Scrapy所必须的环境：优先下载python下载更新文件：python -m pip install --upgrade pip然后下载：pip install wheelpip install lxmlpip install twistedpip install pywin32pip install scrapy下载之后输入：pip list查询是否下载成功创建项目：scrapy start project TXmov

2022-04-03 17:22:43 827

原创 hbase周学习——赵俊杰

事务,触发器，储存过程 1.MySQL事务MySQL事务处理的两种方法1。用GEGIN,ROLLBACK,COMMIT实现BEGIN 开始一个事务ROLLBACK 事务回滚COMMIT 事务确定2.直接用SET改变MySQL的自动提交模式SET AUTOCOMMIT = 0 禁止自动提交SET AUTOCOMMIT = 1 开启自动提交2.储存过程储存过程条件语句#创建存储过程DELIMITER $CREATE PROCEDURE aaa()BEGI...

2022-04-03 16:38:43 2481

原创爬虫周学习总结__赵俊杰

爬贴吧from urllib import requestimport re#定义urlpage=100url='http://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn='+str(page)try: #定义请求头 headers={'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML,

2022-03-20 19:07:28 152

原创 sql学习周总结——赵俊杰

1.索引：一般的应用系统，读写比例在10:1左右，而且插入操作和一般的更新操作很少出现性能问题，在生产环境中，我们遇到最多的，也是最容易出问题的，还是一些复杂的查询操作，因此对查询语句的优化显然是重中之重。说起加速查询，就不得不提到索引了2.为什么要有索引：索引在MySQL中也叫做“键”，是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能非常关键，尤其是当表中的数据量越来越大时，索引对于性能的影响愈发重要。索引优化应该是对查询性能优化最有效的手段了。索引能够轻易将查询性能提高好几个数量级。

2022-03-20 17:45:11 295

qq_57107977的博客