自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 mapreduce代码统计文本单词

首先打开idea导入lib包读取文本import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;//LongWritable 偏移量 long 表示改行在文件中的位置,而不是行号/

2022-05-08 18:44:15 100

原创 爬虫四种统计图

导包import numpy as npimport matplotlib.pyplot as plt代码网格线图ypoints = np.array([1,3,9,25,12,32,5,1])数据插入到图表marker:符号color:颜色,可简写为clinewidth:线条宽度#plt.plot(ypoints,'o:g')#plt.plot(ypoints,marker='o',linestyle=':',color='g')plt.plot(ypoints..

2022-05-08 18:41:11 114

原创 pandas——爬虫

Pandas 安装  安装 pandas 需要基础环境是 Python,开始前我们假定你已经安装了 Python 和 Pip。  使用 pip 安装 pandas:     1 pip install pandas     安装成功后,我们就可以导入 pandas 包使用:  import pandas as pd# 实例 - 查看 pandas 版本pd.__version__ # 查看版本#一个简单的 pandas

2022-05-02 08:44:39 615

原创 MySQL优化查询

mysq查询l优化  指标:执行时间 检查的行数 返回的行数1. count的优化  比如:计算id大于5的城市 a. select count(*) from world.city where id > 5; b. select (select count(*) from world.city) – count(*) from world.city where id <= 5; a语句当行数超过11行的时候需要扫描的行数比b语句要多, b语句扫描了6行,此种情况下,b语句比a语句更

2022-04-25 08:56:28 95

原创 Linux_java链接HDFS

1、首先导入maven可以去网上找或者输入以下<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-hdfs</artifactId> <version>2.7.6</version> &lt

2022-04-25 08:52:24 122

原创 python中numpy创建数组

import numpy as np#自定义数据类型dt = np.dtype([('name','S20'),('age','i1'),('score','f4')])#自定义数组u=np.array([('abc',12,88),('zhangan',18,66)],dtype=dt)print(u['age'])print(u)import numpy as np#创建空数组e=np.empty([3,4],dtype=int,order='C')print(e).

2022-04-25 08:43:01 2326

原创 数据库三范式

数据库的三范式三范式是数据库的一种规范第一范式:行不重复,列不可再分字段不可分,每个字段是原子级别的,第一个字段为ID,它就是ID不能在分成两个字段了,不能说我要把这个人的ID、名称、班级号都塞在一个字段里面,这个是不合适的,对以后的应用造成很大影响第二范式:非主依主表必须符合第一范式,非主键列必须依赖主键列。每个表只描述一个事情有主键,非主键字段依赖主键,ID字段就是主键,它能表示这一条数据是唯一的,其中“unique”表示唯一的、不允许重复的,确实它经常会修饰某个字段,保证该字段唯一性

2022-04-10 20:45:28 673

原创 Linux hadoop搭建

1.准备Linux环境 1.1 开启网络,ifconfig指令查看ip 1.2 修改主机名为自己名字(hadoop) vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop 1.3修改主机名和IP的映射关系 vim /etc/hosts 192.168.182.128 hadoop 1.4关...

2022-04-10 20:34:30 145

原创 爬虫xpath

1 、xpath安装pip install lxml2、xpath规则3、xpath部分案列from lxml import etreetext = """<div><ul><li class="item-0"><a href="link1.html">first item</a></li>....</ul></div>"""resp_html = etree.HTML(text

2022-04-10 20:33:10 2858

原创 Linux——shell指令,if 和循环输出

chmod +x test.sh #给test文件添加权限./test.sh #运行文件/home/test2.sh #运行指定目录下的文件首先输入指令vim test.sh编辑文件#!/bin/bashif truethen echo "hello world"fi#使用if判断输出dt=`date +'%d'`echo $dtif [ $dt = "02" ]then echo '123456'elseecho 'aaa'fi#使用for循环输出1到...

2022-03-20 19:29:21 1195

原创 MySQL索引

1、单独创建索引create index 索引名 on 表名(要创建索引的列名);create index index_name on emp(emp_name);2、修改表结构创建索引alter table 表名 add index 索引名(要创建索引的列名);alter table emp add index index_salary(salary);3、删除索引drop index 索引名 on 表名;drop index index_name on emp;4、单

2022-03-20 18:58:36 43

原创 网络爬虫 爬取a链接——梁鑫

from urllib import requestimport repage=54 #匹配网站url="正在上传…重新上传取消网页链接+str(page)try:#请求头headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36 Edg/99.0.1150.46'}#定义请求..

2022-03-20 18:32:38 177

原创 爬虫基础——梁鑫

初级语法:1、ls 列出当前工作夹所有文件2、pwd打印出我当前工作的目录3、cd切换路径~表示当前用户的家目录4、mkdir创建文件夹

2022-03-13 20:38:00 87

原创 SQL基础语法_梁鑫

SQL基础语法

2022-03-12 15:39:04 340

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除