自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Java操作HDFS

准备工作:Hadoop环境变量配置jdk环境变量配置不详细演讲下面直接演示代码:(如下):import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IOUtils;import org.junit.Before; import java.io.File;import java.io.FileOutputStream;import

2022-04-24 23:01:31 115

原创 MySQL查询优化

USE test;CREATE TABLE IF NOT EXISTS emp(id INT PRIMARY KEY AUTO_INCREMENT,NAME VARCHAR(20),age INT,salary FLOAT);创建存储过程DELIMITER $CREATE PROCEDURE emp()BEGIN定义一个循环变量DECLARE i INT DEFAULT 0;WHILE(i<1000) DOBEGINSELECT i;SET i=i+1;I...

2022-04-24 22:59:00 99

原创 numpy函数

准备工作:pip install numpy把numpy模块安装好代码如下:import numpy as np# 数组元素字符串连接print('连接两个字符串:')print(np.char.add(['hello'], ['zmt']))print(np.char.add(['hello', 'hi'], ['zmt', 'cyt']))print('\n')# multiply()函数执行多重连接print(np.char.multiply('cyt', 3))p..

2022-04-24 22:57:42 102

原创 MySQL范式、存储过程、自定义函数、逻辑运算符和循环

第一范式(1NF) 数据表的每一列都要保持它的原子特性,也就是列不能再被分割。第二范式(2NF) 属性必须完全依赖于主键,消除部分依赖。分数依赖:学号、课名(相当于联合主键) 姓名依赖:学号(主键)优缺点优点:存储过程可封装,并隐藏复杂的商业逻辑。存储过程可以回传值,并可以接受参数。存储过程无法使用 SELECT 指令来运行,因为它是子程序,与查看 表,数据表或用户定义函数不同。存储过程可以用在数据检验,强制实行商业逻辑等。缺点: ...

2022-04-12 16:09:10 71

原创 网络爬虫 xpath表达式

在编写爬虫程序的过程中提取信息是非常重要的环节,但是有时使用正则表达式无法匹配到想要的信息,或者书写起来非常麻烦,此时就需要用另外一种数据解析方法,也就是本节要介绍的 Xpath 表达式。Xpath表达式XPath(全称:XML Path Language)即 XML 路径语言,它是一门在 XML 文档中查找信息的语言,最初被用来搜寻 XML 文档,同时它也适用于搜索 HTML 文档。因此,在爬虫过程中可以使用 XPath 来提取相应的数据。提示:XML 是一种遵守 W3C 标椎的标记语言,类似于

2022-04-12 16:07:10 486

原创 hadoop2.2.0伪分布式搭建

1.准备Linux环境①开启网络,ifconfig指令查看ip②修改主机名为自己名字(hadoop)vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=hadoop③修改主机名和IP的映射关系vim /etc/hosts192.168.182.128 hadoop④关闭防火墙#查看防火墙状态service iptables status#关闭防火墙service iptables stop#关闭防火墙开机启动chkconfig ip

2022-04-12 16:05:56 56

原创 Linux的权限管理和自有服务

网络基础网络分类(记忆)局域网(Local Area Network,LAN)是指范围在几百米到十几公里内办公楼群或校园内的计算机相互连接所构成的计算机网络。城域网(Metropolitan Area Network,MAN)所采用的技术基本上与局域网相类似,只是规模上要大一些。城域网既可以覆盖相距不远的几栋办公楼,也可以覆盖一个城。广域网(Wide Area Network,WAN)通常跨接很大的物理范围,如一个国家。IP是英文Internet Protocol的缩写,意思是“网络之间互连的协

2022-04-04 09:06:47 78

原创 MySQL事务和触发器

事务:具有原子性、一致性、隔离性和持久性原子性:一个事务(transaction)中的所有操作,要么全部完成,要么全部不完成,不会结束在中间某个环节。事务在执行过程中发生错误,会被回滚(Rollback)到事务开始前的状态,就像这个事务从来没有执行过一样。一致性:在事务开始之前和事务结束以后,数据库的完整性没有被破坏。这表示写入的资料必须完全符合所有的预设规则,这包含资料的精确度、串联性以及后续数据库可以自发性地完成预定的工作。隔离性:数据库允许多个并发事务同时对其数据进行读写和修改的能力,隔离

2022-04-04 09:05:07 583

原创 scapy获取网页信息

代码:win+R 输入cmd 打开终端输入cd desktopscrapy startprojectTX moviescd TXmoviesscrapy genspider txms v.qq.com修改setting文件ROBOTSTXT_OBEY=FalseDOWNLOAD_DELAY=1DEFAULT_REQUEST_HEADERS{'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/..

2022-04-04 09:03:01 191

原创 Python 网络爬虫

import refrom urllib import request# 定义urlpage=50url='http://club.sanguosha.com/thread-1111069-1-1.html'try: # 定义请求头 headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51...

2022-03-21 09:27:57 739

原创 MySQL索引

1.什么是索引? 一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,在生产环境中,我们遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,因此对查询语句的优化显然是重中之重。说起加速查询,就不得不提到索引了。2.为什么要有索引呢?索引在MySQL中也叫做“键”,是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能 非常关键,尤其是当表中的数据量越来越大时,索引对于性能的影响愈发重要。 索引优化应该是对查询性能优化最有效的手段了。索引能够轻...

2022-03-20 21:50:53 56

原创 shell脚本

1、什么是shellShell(外壳)是一个用C语言编写的程序,它是用户使用Linux的桥梁。Shell既是一种命令语言,又是一种程序设计语言。Shell是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。2、什么是脚本?脚本简单地说就是一条条的文字命令,这些文字命令是可以看到的(如可以用记事本打开查看、编辑)。常见的脚本:JavaScript(JS,前端),VBScript,ASP,JSP,PHP(后端),SQL(数据库操作语言),Perl,Shell,pytho

2022-03-20 21:48:59 55

原创 Linux

Linux基础语法:1.ls指令:列出当前工作目录下所有文件/文件的名称ls /root2.pwd指令: 打印当前工作的目录pwd3.cd指令: 改变目录/需要改变的目录名cd / root4.mkdir指令:创建目录空格输入创建文件的文件名mkdir abc5.touch指令:当前路径创建文件touch abc.txt6.cp指令:复制文件/复制到指定文件的位置cp ./abc/home/linu123/abc7.mv指令:移动文档到新的位置mv /root..

2022-03-13 15:38:00 76

原创 Python

Python 爬虫架构主要由五个部分组成 分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。 调度器:相当于一台电脑的CPU,主要负责调度URL管理器、下载器、解析器之间的协调工作。 URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存、数据库、缓存数据库来实现。 网页下载器:通过传入一个URL地址来下载网页,将网页转换成一...

2022-03-13 15:02:49 162

原创 SQL基础语法

建一个名字叫databasename的库CREATE DATABASE IF NOT EXISTS databasename DEFAULT CHARSET utf8;建表CREATETABLEIFNOTEXISTS`runoob_tbl`(`runoob_id`INTUNSIGNEDAUTO_INCREMENT,`runoob_title`VARCHAR(100)NOTNULL,`runoob_author`VARCHAR(40)NOTNULL,`submission_date`DATE,PRIMA

2022-03-13 14:21:00 417

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除