自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 MySQL查询优化

USE test;CREATE TABLE IF NOT EXISTS emp(id INT PRIMARY KEY AUTO_INCREMENT,NAME VARCHAR(20),age INT,salary FLOAT);创建存储过程DELIMITER $CREATE PROCEDURE emp()BEGIN定义一个循环变量DECLARE i INT DEFAULT 0;WHILE(i<1000) DOBEGINSELECT i;SET i=i+1;I...

2022-04-24 19:44:29 41

原创 Java操作HDFS

准备工作:Hadoop环境变量配置jdk环境变量配置不详细演讲下面直接演示代码:(如下)import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IOUtils;import org.junit.Before;import java.io.File;import java.io.FileOutputStream;import ja.

2022-04-24 19:43:27 101

原创 网络爬虫Python+numpy

numpy介绍NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。NumPy 的前身 Numeric 最早是由 Jim Hugunin 与其它协作者共同开发,2005 年,Travis Oliphant 在 Numeric 中结合了另一个同性质的程序库 Numarray 的特色,并加入了其它扩展而开发了 NumPy。NumPy 为开放源代码并且由许多协作者共同维护开发。numpy安装Micr

2022-04-24 19:42:22 178

原创 hadoop2.2.0伪分布式搭建

1.准备Linux环境①开启网络,ifconfig指令查看ip②修改主机名为自己名字(hadoop)vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=hadoop③修改主机名和IP的映射关系vim /etc/hosts192.168.182.128 hadoop④关闭防火墙#查看防火墙状态service iptables status#关闭防火墙service iptables stop#关闭防火墙开机启动chkconfig ip

2022-04-12 22:17:13 45

原创 MySQL范式、存储过程、自定义函数、逻辑运算符和循环

第一范式(1NF)数据表的每一列都要保持它的原子特性,也就是列不能再被分割。第二范式(2NF)属性必须完全依赖于主键,消除部分依赖。分数依赖:学号、课名(相当于联合主键) 姓名依赖:学号(主键)缺点:表中的第一行数据都存储了系名、系主任,数据的冗余太大 如果有一个新的系还没有开始找到学生,那么不能讲该系的信息添加到数据表中去,从数据表中看不到该系的存在 如果将某个系的学生信息全部删除,那么这个系在数据表里也就不存在了,但这个系还存在。 如果某个人要转系,那么为了保证数据库中数据的一致..

2022-04-12 22:16:32 40

原创 网络爬虫 xpath表达式

在编写爬虫程序的过程中提取信息是非常重要的环节,但是有时使用正则表达式无法匹配到想要的信息,或者书写起来非常麻烦,此时就需要用另外一种数据解析方法,也就是本节要介绍的 Xpath 表达式。Xpath表达式XPath(全称:XML Path Language)即 XML 路径语言,它是一门在 XML 文档中查找信息的语言,最初被用来搜寻 XML 文档,同时它也适用于搜索 HTML 文档。因此,在爬虫过程中可以使用 XPath 来提取相应的数据。提示:XML 是一种遵守 W3C 标椎的标记语言,类似于

2022-04-12 22:15:34 143

原创 Mysql进阶:索引

什么是索引? 一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,在生产环境中,我们遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,因此对查询语句的优化显然是重中之重。说起加速查询,就不得不提到索引了。 2.为什么要有索引呢? 索引在MySQL中也叫做“键”,是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能 非常关键,尤其是当表中的数据量越来越大时,索引对于性能的影响愈发重要。 索引优化应该是对查询性能优化最有效的手段了。索引能够轻易将查...

2022-03-21 09:30:58 75

原创 Python 网络爬虫进阶版

1. 确定 URL 并抓取页面代码# -*- coding:utf-8 -*-import urllibimport urllib2page = 1url = 'http://www.qiushibaike.com/hot/page/' + str(page)try: request = urllib2.Request(url) response = urllib2.urlopen(request) print response.read()except urllib...

2022-03-20 22:07:20 59

原创 Shell基础

一、关于shell1、什么是shell什么是shell?Shell(外壳) 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。什么是脚本?脚本简单地说就是一条条的文字命令,这些文字命令是可以看到的(如可以用记事本打开查看、编辑)。常见的脚本: JavaScript(JS,前端),VBScript, ASP,JSP,PHP(

2022-03-20 22:04:46 41

原创 爬虫基础

爬虫入门程序 首先我们调用的是 urllib2 库里面的 urlopen 方法,传入一个 URL,这个网址是百度首页,协议是 HTTP 协议,当然你也可以把 HTTP 换做 FTP,FILE,HTTPS 等等,只是代表了一种访问控制协议, urlopen 一般接受三个参数,它的参数如下:urlopen(url, data, timeout) 第一个参数 url 即为 URL,第二个参数 data 是访问...

2022-03-13 19:15:26 52

原创 Linux指令

1、ls指令含义:ls (list)用法1:#ls含义:列出当前工作目录下的所有文件/文件夹的名称用法2:#ls 路径含义:列出指定路径下的所有文件/文件夹的名称关于路径(重要):路径可以分为两种:相对路径、绝对路径。相对路径:相对首先得有一个参照物(一般就是当前的工作路径);相对路径的写法:在相对路径中通常会用到2个符号“./”【表示当前目录下】、“../”【上一级目录下】。绝对路径:绝对路径不需要参照物,直接从根“/”开始寻找对应路径;用法3:#ls 选项 路径

2022-03-13 19:10:17 234

原创 MySql基础语法

创建数据库 create database 数据库名称; 创建数据库,判断不存在,再创建 create database if not exists 数据库名称; 创建数据库,并指定字符集 create database 数据库名称 character set 字符集名; 创建数据库,判断是否存在,并指定字符集 ...

2022-03-13 14:36:35 47

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除