- 博客(17)
- 收藏
- 关注
原创 mapreduce
import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;/**LongWritable 偏移量 long,表示改行在文件中的位置,而不是行号* Text map阶段的输.
2022-05-10 13:35:43
61
原创 pandas
pip instead pandas import pand as pd #设置名称参数 a=["Google","Runoob","Wiki"] date=pd.Series(a,index=["x","y","z"]) print(date) data = { "calories":[420,380,390], "duration":[50,40,45] } #数据载...
2022-05-02 09:37:31
131
原创 查询,索引优化
#避免全表扫描 use test; create table if not exists t(id int,num int defalult 0,name varchar(20)); create index ix_num on t(num); #避免查询null #未使用索引 select id from t where num=null; #使用索引 select id from t where num=0; ..
2022-05-02 09:35:03
62
原创 sql查询优化
USE test;#创建表CREATE TABLE IF NOT EXISTS T1(processid INT,nextprocess INT);#创建索引CREATE INDEX IX ProcessID ON T1(processid);#a语句不使用索引SELECT * FROM T1 WHERE nextprocess = 1 AND processid IN (8,32,45);#语句强制使用索引SELECT * FROM T1 fprce INDEX(IX+ProcessID)
2022-04-24 22:44:07
62
原创 Java操作hdfs
public class HDFSDemo { FileSystem fs = null; @Before public void init() throws Exception{ fs = FileSystem.get(new URI("hdfs://itcast01:9000"), new Configuration(), "root"); } @Test public void testUpload() throw...
2022-04-24 22:40:46
66
原创 Hadoop的安装
安装Hadoop 3.1 filezilla上传hadoop安装包,配置文档(hadoop2.2.0伪分布式搭建.txt) 3.2解压hadoop安装包 #解压 tar -zxvf hadoop-2.2.0.tar.gz 3.3修改配置文件(5个) 路径:/opt/hadoop-2.2.0/etc/hadoop 第一个:hadoop-env.sh #在27行修改 export ...
2022-04-10 21:51:26
63
原创 xpath
from lxml import etree#https://mirrors.aliyun.com/pypi/simple/ python仓库wb_data = """ <div> <ul> <li class="item-0">< a href=" ">first item</ a></li> <li class="item-1">< .
2022-04-10 21:37:59
42
原创 Linux
ssh:安全外壳协议 端口号默认是22如果要修改,则需要修改ssh服务的配置文件 修改范围:0-65535服务启动/终止/重启service sshd start/stop/restart/etc/init.d/sshd start/stop/restart获取服务器ip地址:ifconfigpscp -r root@192.168.21.128:/etc E:\tmp #将远程linux服务器下的/etc整个目录下载到电脑windows系统的E:\tmp下 ...
2022-04-03 20:38:56
116
原创 索引。。。
直接创建索引CREATE INDEX index_name ON table(column(length))修改表结构的方式添加索引ALTER TABLE table_name ADD INDEX index_name (column(length))创建表的时候同时创建索引CREATE TABLE `table` ( `id` int(11) NOT NULL AUTO_INCREMENT , `title` char(255) CHARACTER SET ut...
2022-04-03 20:32:35
173
原创 爬虫 每周总结(4周)
#定义urlpage=100url='https://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn='+str(page)try: #定义请求头 headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537....
2022-03-20 22:24:11
55
原创 MySQL 每周总结(4周)
索引实例MySQL索引的建立对于MySQL的高效运行是很重要的,索引可以大大提高MySQL的检索速度CREATE DATABASE IF NOT EXISTS info DEFAULT CHARSET utf8;USE info;CREATE TABLE IF NOT EXISTS emp ( emp_id INT PRIMARY KEY AUTO_INCREMENT, emp_name VARCHAR(20), salary INT, dept_id INT,...
2022-03-20 22:23:47
752
原创 Hadoop shell脚本 每周总结(4周)
#!/bin/bashecho"Hello World !" 写入一个运行代码echo 用于向窗口输出文本(输出命令)chmod +x ./text.sh 使脚本具有执行权限./test.sh 执行脚本定义变量class_name="lihaha"使用变量echo $class_name 在使用变量的时候一定需要在变量名前面添加一个$符号命名只能使用英文字母,数字和下划线,首个字符不能以数字开头。中间不能有空格,可以使用下划线“_”。不能使用...
2022-03-20 22:23:20
2306
原创 爬虫基础。
from http import cookiejarimport urllibfrom urllib import requestfilename = 'cookie.txt'cookie = cookiejar.MozillaCookieJar(filename)handler = request.HTTPCookieProcessor(cookie)opener = request.build_opener(handler)#定义data 账号加密码postdata = urllib.
2022-03-13 20:55:45
994
原创 SQL基础语法
CREATE DATABASE IF NOT EXISTS inof DEFAULT CHARSET utf8;USE inof;CREATE TABLE IF NOT EXISTS we(sid INT PRIMARY KEY AUTO_INCREMENT, sname VARCHAR(20), gender VARCHAR(20), class_id INT);INSERT INTO we(sname,gender,class_id)VALUES("张三","男",1)...
2022-03-12 16:10:12
814
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人