杀马特love梁鑫-CSDN博客

原创 mapreduce代码统计文本单词

首先打开idea导入lib包读取文本import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;//LongWritable 偏移量 long 表示改行在文件中的位置，而不是行号/

2022-05-08 18:44:15 100

原创爬虫四种统计图

导包import numpy as npimport matplotlib.pyplot as plt代码网格线图ypoints = np.array([1,3,9,25,12,32,5,1])数据插入到图表marker：符号color：颜色，可简写为clinewidth：线条宽度#plt.plot(ypoints,'o:g')#plt.plot(ypoints,marker='o',linestyle=':',color='g')plt.plot(ypoints..

2022-05-08 18:41:11 114

原创 pandas——爬虫

Pandas 安装　　安装 pandas 需要基础环境是 Python，开始前我们假定你已经安装了 Python 和 Pip。　　使用 pip 安装 pandas:　　　　 1 pip install pandas 　　　　安装成功后，我们就可以导入 pandas 包使用：　　import pandas as pd# 实例 - 查看 pandas 版本pd.__version__ # 查看版本#一个简单的 pandas

2022-05-02 08:44:39 615

原创 MySQL优化查询

mysq查询l优化　　指标：执行时间检查的行数返回的行数1. count的优化　　比如：计算id大于5的城市 a. select count(*) from world.city where id > 5; b. select (select count(*) from world.city) – count(*) from world.city where id <= 5; a语句当行数超过11行的时候需要扫描的行数比b语句要多， b语句扫描了6行，此种情况下，b语句比a语句更

2022-04-25 08:56:28 95

原创 Linux_java链接HDFS

1、首先导入maven可以去网上找或者输入以下<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-hdfs</artifactId> <version>2.7.6</version> &lt

2022-04-25 08:52:24 122

原创 python中numpy创建数组

import numpy as np#自定义数据类型dt = np.dtype([('name','S20'),('age','i1'),('score','f4')])#自定义数组u=np.array([('abc',12,88),('zhangan',18,66)],dtype=dt)print(u['age'])print(u)import numpy as np#创建空数组e=np.empty([3,4],dtype=int,order='C')print(e).

2022-04-25 08:43:01 2326

原创数据库三范式

数据库的三范式三范式是数据库的一种规范第一范式：行不重复，列不可再分字段不可分，每个字段是原子级别的，第一个字段为ID，它就是ID不能在分成两个字段了，不能说我要把这个人的ID、名称、班级号都塞在一个字段里面，这个是不合适的，对以后的应用造成很大影响第二范式：非主依主表必须符合第一范式，非主键列必须依赖主键列。每个表只描述一个事情有主键，非主键字段依赖主键，ID字段就是主键，它能表示这一条数据是唯一的，其中“unique”表示唯一的、不允许重复的，确实它经常会修饰某个字段，保证该字段唯一性

2022-04-10 20:45:28 673

原创 Linux hadoop搭建

1.准备Linux环境 1.1 开启网络,ifconfig指令查看ip 1.2 修改主机名为自己名字(hadoop) vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop 1.3修改主机名和IP的映射关系 vim /etc/hosts 192.168.182.128 hadoop 1.4关...

2022-04-10 20:34:30 145

原创爬虫xpath

1 、xpath安装pip install lxml2、xpath规则3、xpath部分案列from lxml import etreetext = """<div><ul><li class="item-0"><a href="link1.html">first item</a></li>....</ul></div>"""resp_html = etree.HTML(text

2022-04-10 20:33:10 2858

原创 Linux——shell指令，if 和循环输出

chmod +x test.sh #给test文件添加权限./test.sh #运行文件/home/test2.sh #运行指定目录下的文件首先输入指令vim test.sh编辑文件#!/bin/bashif truethen echo "hello world"fi#使用if判断输出dt=`date +'%d'`echo $dtif [ $dt = "02" ]then echo '123456'elseecho 'aaa'fi#使用for循环输出1到...

2022-03-20 19:29:21 1195

原创 MySQL索引

1、单独创建索引create index 索引名 on 表名(要创建索引的列名);create index index_name on emp(emp_name);2、修改表结构创建索引alter table 表名 add index 索引名(要创建索引的列名);alter table emp add index index_salary(salary);3、删除索引drop index 索引名 on 表名;drop index index_name on emp;4、单

2022-03-20 18:58:36 43

原创网络爬虫爬取a链接——梁鑫

from urllib import requestimport repage=54 #匹配网站url="正在上传…重新上传取消网页链接+str(page)try:#请求头headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36 Edg/99.0.1150.46'}#定义请求..

2022-03-20 18:32:38 177

原创爬虫基础——梁鑫

初级语法：1、ls 列出当前工作夹所有文件2、pwd打印出我当前工作的目录3、cd切换路径~表示当前用户的家目录4、mkdir创建文件夹

2022-03-13 20:38:00 87

原创 SQL基础语法_梁鑫

SQL基础语法

2022-03-12 15:39:04 340

m0_67456172的博客