自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 四种统计图

折线图导包import numpy as npimport matplotlib.pyplot as plt定义数据ypoints = np.array([1,3,9,25,12,32,5,1])数据插入到图表marker:符号color:颜色,可简写为clinewidth:线条宽度#plt.plot(ypoints,'o:g')#plt.plot(ypoints,marker='o',linestyle=':',color='g')plt.plot(ypoints,marke

2022-05-08 15:02:35 328

原创 mapreduce代码统计文本单词

读取文本数据按空格进行拆分import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;//LongWritable 偏移量 long 表示改行在文件中的位置,而不是行号//Text ma

2022-05-08 14:36:11 154

原创 爬虫_pandas

pandas安装pip install pandas导包(别名为as)import pandas as pd查看pandas版本print(pd.__version__)pandas数据结构 --DataFrameDataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。DataFrame 构造方法pandas.DataFram

2022-05-01 17:03:47 210

原创 爬虫_numpy函数

NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。NumPy 是一个运行速度非常快的数学库,主要用于数组计算,包含:一个强大的N维数组对象 ndarray广播功能函数整合 C/C++/Fortran 代码的工具线性代数、傅里叶变换、随机数生成等功能numpy安装:进入命令提示符,pip install numpy程序导包:import numpy as np#自定义数据类型dt=

2022-04-24 16:53:24 667

原创 java操作hdfs

在本地配置环境变量在官网下载一个与服务器上的hadoop同样的版本包(或许可以不是同一个版本)配置环境变量导入maven配置文件 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.1.3</versi

2022-04-24 16:04:17 1921

原创 sql查询优化

mysql优化指标:执行时间、检查的行数、返回的行数例一:创建存储过程count优化a语句当行数超过11行的时候需要扫描的行数比b语句要多, b语句扫描了6行,此种情况下,b语句比a语句更有效率。当没有where语句的时候直接select count(*) from world.city这样会更快,因为mysql总是知道表的行数。避免使用不兼容的数据类型索引不兼容会使效率降低float和int、char和varchar、binary和varbinary是不兼容的。数据类型的不兼容可能使优

2022-04-24 15:31:49 592

原创 mysql范式

MySQL 三大范式为什么需要数据规范化?信息重复更新异常插入异常无法正常显示信息删除异常丢失有效的信息设计关系型数据库时,遵从不同的规范要求,设计出合理的关系型数据库,这些不同的规范要求被称为不同的范式,各种范式呈递次规范,越高的范式数据库冗余越小。目前关系型数据库有六种范式:  第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)和第五范式(5NF,又称完美范式)。一般来说,数据库只需要满足第三范式就行了。第一范式:保证每列

2022-04-11 11:04:46 1175

原创 XPath语法

什么是 XPath?XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元素XPath 是一个 W3C 标准在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档节点(或称为根节点)。树的根被称为文档节点或者根节点。使用时先安装 lxml 包和beautifulsoup类似,首先我们需要得到一个文档树把文本转换成一个文档树对象节点、元素、属性、内容xpath 的思想是通过 路径表达

2022-04-10 19:46:08 84

原创 hadoop伪分布式搭建

Hadoop是什么?海量数据的存储(HDFS)海量数据的分析(MapReduce)资源管理调度(YARN)Hadoop核心?hdfs: Hadoop Distributed File System 分布式文件系统yarn: Yet Another Resource Negotiator资源管理调度系统hdfs的架构主从结构主节点,只有一个: namenode从节点,有很多个: datanodenamenode负责:接收用户操作请求维护文件系统的目录结构管理文件与block之间关

2022-04-10 18:43:00 106

转载 SecureCRT、FileZilla安装

SecureCRT软件简介:用来远程连接linux,FileZilla用来传输本地文件到linuxSecureCRT安装一路next下去就行,注意选择下安装路径将KG_ttrar.exe(注意,下载不同的学习工具可能有不同的名字)复制到安装路径下右键点击“以管理员身份运行”使用将密码保存连接成功后,以启动和停止Tomcat为例,输入“ps -ef|grep java”。输入“service tomcat stop”,停止tomcat,等待5秒后(如果输入tomcat停止命令

2022-04-03 16:52:47 177

原创 mysql索引、视图、事物、触发器、存储过程

1、索引1.1 普通索引直接创建:CREATE INDEX index_name ON table(column(length))1.1.2 修改表结构的方式添加索引ALTER TABLE table_name ADD INDEX index_name (column(length))1.1.3 创建表的时候同时创建索引CREATE TABLE `table` ( `id` int(11) NOT NULL AUTO_INCREMENT , `title` char(255) CHARA

2022-04-03 16:37:19 909

原创 scrapy安装与使用

1、概述Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。他是一个框架,可供任何人修改。2、五大基本构成Scrapy框架主要由五大组件组成,它们分别是调度器(Scheduler)、下载器(Downloader)、爬虫(Spider)和实体管道(Item Pipeline)、Scrapy引擎(Scrapy Engine)。下面我们分别介绍各个组件的作用。这些文件主要是:s

2022-04-03 15:54:47 2102

原创 Hadoop_shell脚本

1、什么是shellShell(外壳) 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。什么是脚本?脚本简单地说就是一条条的文字命令,这些文字命令是可以看到的(如可以用记事本打开查看、编辑)。常见的脚本: JavaScript(JS,前端),VBScript, ASP,JSP,PHP(后端),SQL(数据库操作语言),Perl,She

2022-03-20 15:20:53 3264

原创 简单页面的爬取

1、确定URL并抓取页面代码from urllib import requestimport repage=100#要爬取的网页链接url='https://tieba.baidu.com/f?kw=%B6%CE%D7%D3&fr=ala0&tpl=5&dyTabStr=MCw2LDIsNCw1LDMsMSw4LDcsOQ%3D%3D='+str(page)try: headers={'User-Agent':'Mozilla/5.0 (Windows NT

2022-03-20 14:44:53 204

原创 python爬虫

python爬虫_雷书婷1、爬虫入门程序1.1环境准备1. JDK1.82. IntelliJ IDEA3. IDEA自带的Maven4. pom.xml相关依赖1.2 简单爬取网页代码import urllib.request # 1、网址url url = 'http://www.baidu.com' # 2、直接请求 返回结果response = urllib.request.urlopen(url) # 3、获取状态码,如果是200表示获取成功print ('

2022-03-13 23:12:09 1337

原创 linux指令

linux指令_雷书婷1、 11个基础指令1.1 ls指令(list)含义:列出当前工作目录下的所有文件/文件夹的名称用法:1. ls -l 路径:表示list,表示以详细列表的形式进行展示 2. ls -la 路径:表示显示所有的文件/文件夹(包含了隐藏文件/文件夹)1.2 pwd指令用法:pwd1.3 cd指令作用:...

2022-03-13 21:29:07 1242

原创 SQL基础语法

SQL基础语法

2022-03-11 19:15:02 820

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除