自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 Hdoop——代码统计文本单词

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import org.apache.hadoop.mapreduce.li.

2022-05-08 17:17:03 95

原创 网络爬虫——四种思维导图

1 柱形图import numpy as npimport matplotlib.pyplot as plt#准备数据x=np.array(['baseketball','football','baseball','beautiful',])y=np.array([10,20,20,9])c=np.array(['#4CAF50','red','hotpink','#556B2F'])#插入数据plt.bar(x,y,color=c,width=0.5)plt.title('hobb

2022-05-08 17:15:15 638

原创 Hbase—思维导图

2022-05-08 17:01:47 602

原创 mysql——参数优化 索引优化

索引优化CREATE DATABASE IF NOT EXISTS info DEFAULT CHARSET utf8;USE info;#创建表CREATE TABLE IF NOT EXISTS emp( emp_id INT PRIMARY KEY AUTO_INCREMENT, emp_name VARCHAR(20), salary INT, dept_id INT, manager_id INT);#直接添加索引CREATE INDEX index_emp_name

2022-05-01 20:23:18 622

原创 网络爬虫——pandas

import pandas as pddf=pd.read_csv('123.csv')# print(df)#删除空值# df2=df.dropna()# print(df2)#判断空值# print(df['NUM_BEDROOMS'].isnull())#指定空值类型# missing_values = ["n/a","na","--","NaN"]# df=pd.read_csv('123.csv',na_values=missing_values)# # df.dr.

2022-05-01 20:18:04 757

原创 网络爬虫——numpy函数

import numpy as npprint('连接两个字符串:')print(np.char.add(['hello'], [' xyz']))print('\n')print('连接示例:')print(np.char.add(['hello', 'hi'], [' abc', ' xyz']))print (np.char.multiply('Runoob ',3))# np.char.center(str , width,fillchar) :# str: 字符串,widt.

2022-04-24 20:52:18 796

原创 Hdoop——java操作hdfs

HDFSDemo.javapackage cn.itcast.hadoop.hdfs;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net.URI;.

2022-04-24 20:50:46 78

原创 Habase——查询优化

USE test;#创建表CREATE TABLE IF NOT EXISTS T1(processid INT,nextprocess INT);#创建索引CREATE INDEX IX ProcessID ON T1(processid);#a语句不使用索引SELECT * FROM T1 WHERE nextprocess = 1 AND processid IN (8,32,45);#b语句强制使用索引SELECT * FROM T1 FROM INDEX(IX_ProcessID.

2022-04-24 20:47:32 216

原创 网络爬虫——xpath使用

from lxml import etreewb_data = """ <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">seco.

2022-04-10 20:56:57 194

原创 Hdoop——网络基础

Linux的网络基础一、网络相关概述1、网络发展信息传递远古时期,人们就通过简单的语言、壁画等方式交换信息千百年来,人们一直在用语言、图符、钟鼓、烟火、竹简、纸书等传递信息古代人的烽火狼烟、飞鸽传信、驿马邮递现代社会中,交通警的指挥手语、航海中的旗语等这些信息传递的基本方式都是依靠人的视觉与听觉电的产生1831年,法拉第制出了世界上最早的第一台发电机1866年,德国人西门子(Siemens)制成世界上第一台大功率发电机1837年,美国人塞缪乐·

2022-04-10 20:53:23 861

原创 Hbase——购物数据库

CREATE DATABASE IF NOT EXISTS shop DEFAULT CHARSET utf8;USE shop;#用户表CREATE TABLE IF NOT EXISTS USER(id INT PRIMARY KEY AUTO_INCREMENT COMMENT '用户Id',username VARCHAR(50) NOT NULL COMMENT '用户名',PASSWORD VARCHAR(50) NOT NULL COMMENT '密码',regis...

2022-04-10 20:40:50 1386

原创 网络爬虫——scrapy案例

1.创建项目打开一个终端输入(建议放到合适的路径下,默认是C盘)scrapy startproject TXmoviescd TXmoviesscrapy genspider txms v.qq.com2.修改setting修改三项内容,第一个是不遵循机器人协议,第二个是下载间隙,由于下面的程序要下载多个页面,所以需要给一个间隙(不给也可以,只是很容易被侦测到),第三个是请求头,添加一个User-Agent,第四个是打开一个管道ROBOTSTXT_OBEY=FalseDOWN

2022-04-03 20:35:36 504

原创 mysql事务/存储过程/触发器

MySQL 事务原子性:一个事务(transaction)中的所有操作,要么全部完成,要么全部不完成,不会结束在中间某个环节。事务在执行过程中发生错误,会被回滚(Rollback)到事务开始前的状态,就像这个事务从来没有执行过一样。一致性:在事务开始之前和事务结束以后,数据库的完整性没有被破坏。这表示写入的资料必须完全符合所有的预设规则,这包含资料的精确度、串联性以及后续数据库可以自发性地完成预定的工作。隔离性:数据库允许多个并发事务同时对其数据进行读写和修改的能力,隔离性可以防止多个事务并发执

2022-04-03 20:10:13 125

原创 Hdoop的原理

hadoop是什么?海量数据的存储(HDFS)海量数据的分析(MapReduce)资源管理调度(YARN)hadoop核心HDFS: Hadoop Distributed File System 分布式文件系统YARN: Yet Another Resource Negotiator 资源管理调度系统HDFS的架构主从结构主节点,只有一个: namenode从节点,有很多个: datanodenamenode负责: 接收用户操作请求维护文件系统的目录结构管

2022-04-03 19:48:47 2554

原创 Hbase——索引

MySQL 索引1.什么是索引? 一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,在生产环境中,我们遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,因此对查询语句的优化显然是重中之重。说起加速查询,就不得不提到索引了。 2.为什么要有索引呢? 索引在MySQL中也叫做“键”,是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能 非常关键,尤其是当表中的数据量越来越大时,索引对于性能的影响愈发重要。 索引优化应该是对查询性能优化最有效的手段了。索引能够

2022-03-20 19:56:56 922

原创 网络爬虫——scrapy入门案例

一、概述Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试. 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 后台也应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫. Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider

2022-03-20 19:49:29 359

原创 Hadoop——shell脚本

Shell基础一、关于shell1、什么是shell什么是shell?Shell(外壳)是一个用C语言编写的程序,它是用户使用Linux的桥梁。Shell既是一种命令语言,又是一种程序设计语言。Shell是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。什么是脚本?脚本简单地说就是一条条的文字命令,这些文字命令是可以看到的(如可以用记事本打开查看、编辑)。常见的脚本:JavaScript(JS,前端),VBScript,ASP,JSP,PHP(后端),SQL(

2022-03-20 19:41:17 294

原创 爬虫基础——罗静

1,爬虫入门程序#导入功能库 urllib2import urllib2#调用urllib2库的urlopen方法 第一个参数url即为URLresponse = urllib2.urlopen("http://www.baidu.com")#response 对象有一个 read 方法,可以返回获取到的网页内容。print response.read()2,爬虫程序添加data,header,然后post请求#导入功能库库名 urllib urllib2 import ...

2022-03-13 20:06:38 199

原创 Hadoop指令——罗静

基础指令1、ls指令含义:ls(list)用法1:#ls含义:列出当前工作目录下的所有文件/文件夹的名称用法2:#ls路径含义:列出指定路径下的所有文件/文件夹的名称关于路径(重要):路径可以分为两种:相对路径、绝对路径。相对路径:相对首先得有一个参照物(一般就是当前的工作路径);相对路径的写法:在相对路径中通常会用到2个符号“./”【表示当前目录下】、“../”【上一级目录下】。绝对路径:绝对路径不需要参照物,直接从根“/”开始寻找对应路径;用法3:#ls选项路径含义:在列出指定路

2022-03-12 20:14:13 1313

原创 Hbase基础指令——罗静

CREATE DATABASE IF NOT EXISTS info11 DEFAULT CHARSET utf8;USE info11;#建学生表CREATE TABLE IF NOT EXISTS stu( NO INT PRIMARY KEY AUTO_INCREMENT, NAME VARCHAR(20));INSERT INTO stu(NAME)VALUES("张三"),("李四"),("王五"),("赵四儿"),("田老五");SELECT * FROM stu;...

2022-03-12 19:36:54 2805

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除