自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 Mysql数据库思维导图

Mysql数据库总结思维导图Mysql数据库总结流程图:

2022-05-08 22:32:11 727

原创 PowerDesigner建模

PowerDesigner最基础的使用方法入门学习1:入门级使用PowerDesigner软件创建数据库我的PowerDesigner版本是16.5的,如若版本不一样,请自行参考学习即可。(打开软件即是此页)2:首先创建概念数据模型,如图所示(后面介绍一些比如物理数据模型等等,由于此软件全部是英文的,所以作为一个chinese不是很懂的,耐心的多使用几次就好了。)请自行脑补概念模型(CDM Conceptual Data Model)物理模型(PDM,Physical Da.

2022-05-08 22:28:19 341

原创 winutil处理 hadoop-2.6.1

原始数据hello tomhello jerryhello kittyhello worldhello tomMap阶段1.每次读一行数据,2.拆分每行数据,3.每个单词碰到一次写个1<0, "hello tom"> <10, "hello jerry"> <22, "hello kitty"> <34, "hello world"> <46, "hello tom">import org.

2022-05-08 22:18:31 148

原创 网络爬虫、Pandas

DataFrame 构造方法如下:pandas.DataFrame( data, index, columns, dtype, copy)参数说明:data:一组数据(ndarray、series, map, lists, dict 等类型)。index:索引值,或者可以称为行标签。columns:列标签,默认为 RangeIndex (0, 1, 2, …, n) 。dtype:数据类型。copy:拷贝数据,默认为 False。Pandas DataFrame 是一个二维的数

2022-05-02 08:50:13 138

原创 MySQL、索引优化&参数优化

1.对查询进行优化应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is null可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:select id from t where num=03.应尽量避免在 where 子句中使用!=或<>操作符,否

2022-05-02 08:48:52 83

原创 hadoop2.2.0、HDFS的java访问接口

4.5.1.搭建 Hadoop 开发环境我们在工作中写完的各种代码是在服务器中运行的,HDFS 的操作代码也不例外。在开发阶段,我们使用 windows 下的 eclipse 作为开发环境,访问运行在虚拟机中的 HDFS。也就是通过在本地的 eclipse 中的 java 代码访问远程 linux 中的 hdfs。要使用宿主机中的 java 代码访问客户机中的 hdfs,需要保证以下几点:确保宿主机与客户机的网络是互通的确保宿主机和客户机的防火墙都关闭,因为很多端口需要通过,为了减少防火墙配置

2022-05-02 08:47:57 177

原创 numpy函数

准备工作:pip install numpy把numpy模块安装好代码如下:import numpy as np # 数组元素字符串连接print('连接两个字符串:')print(np.char.add(['hello'], ['zmt']))print(np.char.add(['hello', 'hi'], ['zmt', 'cyt']))print('\n') # multiply()函数执行多重连接print(np.char.multiply('cyt', 3))

2022-05-02 08:46:05 66

原创 Java操作HDFS

准备工作:Hadoop环境变量配置jdk环境变量配置不详细演讲下面直接演示代码:(如下):import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IOUtils;import org.junit.Before; import java.io.File;import java.io.FileOutputStream;import

2022-05-02 08:44:23 221

原创 MySQL查询优化

USE test; CREATE TABLE IF NOT EXISTS emp(id INT PRIMARY KEY AUTO_INCREMENT,NAME VARCHAR(20),age INT,salary FLOAT);创建存储过程DELIMITER $CREATE PROCEDURE emp()BEGIN定义一个循环变量DECLARE i INT DEFAULT 0;WHILE(i<1000) DOBEGINSELECT i;SET i..

2022-05-02 08:42:49 64

原创 数据库范式

第一范式(1NF)数据表的每一列都要保持它的原子特性,也就是列不能再被分割。第二范式(2NF)、属性必须完全依赖于主键,消除部分依赖。下表问题在哪?缺点•表中的第一行数据都存储了系名、系主任,数据的冗余太大•如果有一个新的系还没有开始找到学生,那么不能讲该系的信息添加到数据表中去,从数据表中看不到该系的存在•如果将某个系的学生信息全部删除,那么这个系在数据表里也就不存在了,但这个系还存在。•如果某个人要转系,那么为了保证数据库中数据的一致性,需要修改三条记录中系与系主任的数据

2022-04-12 16:25:02 140

原创 爬虫xpath用法

Xpath的作用:XPath 是一门在 XML 文档中查找信息的语言。XML文档包括: HTML / XHTMLXML / XML NamespacesXPath的节点:请看下面这个 XML 文档:<?xml version="1.0" encoding="UTF-8"?><bookstore> <book> <title lang="en">Harry Potter</title>...

2022-04-12 16:19:28 132

原创 hadoop-2.2.0搭建

1.准备Linux环境 1.1 开启网络,ifconfig指令查看ip 1.2 修改主机名为自己名字(hadoop) vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop 1.3修改主机名和IP的映射关系 vim /etc/hosts 192.168.182.128 hadoop 1.4关...

2022-04-12 16:16:24 132

原创 Hadoop伪分布式搭建

网络基础网络分类(记忆)局域网(Local Area Network,LAN)是指范围在几百米到十几公里内办公楼群或校园内的计算机相互连接所构成的计算机网络。 城域网(Metropolitan Area Network,MAN)所采用的技术基本上与局域网相类似,只是规模上要大一些。城域网既可以覆盖相距不远的几栋办公楼,也可以覆盖一个城。 广域网(Wide Area Network,WAN)通常跨接很大的物理范围,如一个国家。IP是英文Internet Protocol的缩写,意思是“网络之间互

2022-04-03 20:59:29 2374

原创 MySQL事务和触发器

事务:具有原子性、一致性、隔离性和持久性原子性:一个事务(transaction)中的所有操作,要么全部完成,要么全部不完成,不会结束在中间某个环节。事务在执行过程中发生错误,会被回滚(Rollback)到事务开始前的状态,就像这个事务从来没有执行过一样。一致性:在事务开始之前和事务结束以后,数据库的完整性没有被破坏。这表示写入的资料必须完全符合所有的预设规则,这包含资料的精确度、串联性以及后续数据库可以自发性地完成预定的工作。隔离性:数据库允许多个并发事务同时对其数据进行读写和修改的能力,隔离

2022-04-03 20:50:25 493

原创 用scapy获取网页信息

代码如下:win+R 输入cmd 打开终端输入cd desktopscrapy startprojectTX moviescd TXmoviesscrapy genspider txms v.qq.com修改setting文件ROBOTSTXT_OBEY=FalseDOWNLOAD_DELAY=1DEFAULT_REQUEST_HEADERS{'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9..

2022-04-03 20:43:31 759

原创 Python爬虫获取网页信息

import refrom urllib import request# 定义urlpage=50url='http://club.sanguosha.com/thread-1111069-1-1.html'try: # 定义请求头 headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 .

2022-03-20 14:54:14 711

原创 shell脚本

1、什么是shellShell(外壳)是一个用C语言编写的程序,它是用户使用Linux的桥梁。Shell既是一种命令语言,又是一种程序设计语言。Shell是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。2、什么是脚本?脚本简单地说就是一条条的文字命令,这些文字命令是可以看到的(如可以用记事本打开查看、编辑)。常见的脚本:JavaScript(JS,前端),VBScript,ASP,JSP,PHP(后端),SQL(数据库操作语言),Perl,Shell,pyt

2022-03-20 14:51:39 923

原创 MySQL索引

1.什么是索引?一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,在生产环境中,我们遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,因此对查询语句的优化显然是重中之重。说起加速查询,就不得不提到索引了。2.为什么要有索引呢?索引在MySQL中也叫做“键”,是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能 非常关键,尤其是当表中的数据量越来越大时,索引对于性能的影响愈发重要。 索引优化应该是对查询性能优化最有效的手段了。索引能...

2022-03-20 14:23:53 64

原创 Python爬虫基础

1.爬虫入门程序一、什么是爬虫?一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。二、Python爬虫架构Python 爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。扒取网页和基本代码:import urllib2response = urllib2.urlopen("http://www.baidu.com")print response.read()2.爬虫程序添加data...

2022-03-13 17:19:08 2231

原创 linux指令

1.基础指令语法 ls指令含义:列出当前工作目录下的所有文件/文件夹的名称常见的语法:#ls -l路径#ls -la 路径 选项解释:-l:表示list,表示以详细列表的形式进行展示 ...

2022-03-13 14:05:13 1282

原创 SQL基础语法

1.建库建表语法#建库create database if not exists dataname defaule charset utf8;#建表create table if not exists runoob_tbl(runoob_id int primary key auto_increment,runoob_title varchar(20) not null,runoob_author varchar(20) not null,submission_date date not

2022-03-12 22:32:45 796

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除