自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 hadoop-2.6.1 map reduce

原始数据HDFSwordshello tom hello jerry hello kitty hello world hello tom Map阶段每次读一行数据,2.拆分每行数据,3.每个单词碰到一次写个1<0, "hello tom"><10, "hello jerry"><22, "hello kitty"><34, "hello world">&lt

2022-05-08 22:22:13 74

原创 MySQL思维导图

MySQL数据流程图

2022-05-08 22:20:22 201

原创 网络爬虫Matplotlib

颜色字符:'b' 蓝色,'m' 洋红色,'g' 绿色,'y' 黄色,'r' 红色,'k' 黑色,'w' 白色,'c' 青绿色,'#008000' RGB 颜色符串。多条曲线不指定颜色时,会自动选择不同颜色。线型参数:'‐' 实线,'‐‐' 破折线,'‐.' 点划线,':' 虚线。标记字符:'.' 点标记,',' 像素标记(极小点),'o' 实心圈标记,'v' 倒三角标记,'^' 上三角标记,'>' 右三角标记,'<' 左三角标记...等等。如果我们要绘制坐标 (1, 3) 到 (8, 10) 的

2022-05-08 22:17:39 554

原创 MySQL&索引优化&参数优化

1.对查询进行优化应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is null可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:select id from t where num=03.应尽量避免在 where 子句中使用!=或&l.

2022-05-01 20:56:43 103

原创 网络爬虫&Pandas

Pandas 是 Python 语言的一个扩展程序库,用于数据分析。Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。Pandas 名字衍生自术语 "panel data"(面板数据)和 "Python data analysis"(Python 数据分析)。Pandas 一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算)。Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数

2022-05-01 20:45:49 99

原创 hadoop2.2.0&HDFS的java访问接口

4.5.1.搭建 Hadoop 开发环境我们在工作中写完的各种代码是在服务器中运行的,HDFS 的操作代码也不例外。在开发阶段,我们使用 windows 下的 eclipse 作为开发环境,访问运行在虚拟机中的 HDFS。也就是通过在本地的 eclipse 中的 java 代码访问远程 linux 中的 hdfs。要使用宿主机中的 java 代码访问客户机中的 hdfs,需要保证以下几点:确保宿主机与客户机的网络是互通的确保宿主机和客户机的防火墙都关闭,因为很多端口需要通过,为了减少防火墙配置

2022-05-01 20:16:49 45

原创 MySQL优化

mysql查询优化mysql的性能优化包罗甚广: 索引优化,查询优化,查询缓存,服务器设置优化,操作系统和硬件优化,应用层面优化(web服务器,缓存)等等。这里的记录的优化技巧更适用于开发人员,都是从网络上收集和自己整理的,主要是查询语句上面的优化,其它层面的优化技巧在此不做记录。count的优化#比如:计算id大于5的城市 #a语句 select count(*) from world.city where id > 5;#b语句select (select count(.

2022-04-24 19:58:03 71

原创 java操作hadf

生成ssh免登陆密钥1 cd ~,进入到我的home目录2. cd .ssh/3 ssh-keygen -t rsa (四个回车)4执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)5将公钥拷贝到要免登陆的机器上cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 或 ssh-copy-id -i localhostHDFS 的 shell 操作...

2022-04-24 19:49:17 291

原创 numpy函数

numpy介绍NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。 NumPy 的前身 Numeric 最早是由 Jim Hugunin 与其它协作者共同开发,2005 年,Travis Oliphant 在 Numeric 中结合了另一个同性质的程序库 Numarray 的特色,并加入了其它扩展而开发了 NumPy。NumPy 为开放源代码并且由许多协作者共同维护开发。mumpy是一个运行

2022-04-24 19:23:28 2966

原创 Hadoop部署

1.准备Linux环境 1.1 开启网络,ifconfig指令查看ip1.2 修改主机名为自己名字(hadoop) vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop1.3修改主机名和IP的映射关系 vim /etc/hosts 192.168.182.128 hadoop1.4关闭防火墙 #查看防火墙...

2022-04-12 16:34:22 3331

原创 网络爬虫xpath

Xpath的作用:XPath是一门在XML文档中查找信息的语言。XML文档包括:HTML/XHTMLXML/XMLNamespacesXpath表达式:XPath(全称:XML Path Language)即 XML 路径语言,它是一门在 XML 文档中查找信息的语言,最初被用来搜寻 XML 文档,同时它也适用于搜索 HTML 文档。因此,在爬虫过程中可以使用 XPath 来提取相应的数据。提示:XML 是一种遵守 W3C 标椎的标记语言,类似于 HTML,但两者的设计目的是不同,XML 通

2022-04-12 16:21:03 2987

原创 数据库范式

第一范式(1NF) 数据表的每一列都要保持它的原子特性,也就是列不能再被分割。这张表就不符合第一范式规定的原子性,不符合关系型数据库的基本要求,在关系型数据库中创建这个表的操作就不能成功。不得不将数据表设计为如下形式。根据第一范式修改第二范式(2NF)、 属性必须完全依赖于主键,消除部分依赖。下表问题在哪?分数依赖:学号、课名(相当于联合主键) 姓名依赖:学号(主键)缺点表中的第一行数据都存储了系名、系主任,数据的冗余太大 如果有一个新的系还没有开始找到学生,..

2022-04-12 16:12:03 671

原创 MySQL视图&事务&触发器&存储过程

1试图视图(view)是一种虚拟存在的表,是一个逻辑表,本身并不包含数据。作为一个select语句保存在数据字典中的。视图是干什么用的?通过视图,可以展现表的部分数据; 视图数据来自定义视图的查询中使用的表,使用视图动态生成。 表:用来创建视图的表叫做表为什么要使用视图?因为视图的诸多优点,如下 1)简单:使用视图的用户完全不需要关心后面对应的表的结构、关联条件和筛选条件,对用户来说已经是过滤好的复合条件的结果集。 2)安全:使用视图的用户只能访问他们被允许查询的结果集,对表的权限管理并

2022-04-03 16:54:30 58

原创 Linux权限 服务

一、权限概述一、权限概述总述:Linux系统一般将文件可存/取访问的身份分为3个类别:owner、group、others,且3种身份各有read、write、execute等权限。1、权限介绍什么是权限?在多用户(可以不同时)计算机系统的管理中,权限是指某个特定的用户具有特定的系统资源使用权力,像是文件夹、特定系统指令的使用或存储量的限制。在Linux中分别有读、写、执行权限:读权限:对于文件夹来说,读权限影响用户是否能够列出目录结构对于文件来说,读权限影响用户是否可以查看

2022-04-03 16:41:31 488

原创 Scrapy框架入门

概述Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试. 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 后台也应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫. Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、s

2022-04-03 16:29:37 89

原创 Python实战

1、确定 URL 并抓取页面代码import urllibimport urllib2page = 1url = 'http://www.qiushibaike.com/hot/page/' + str(page)try: request = urllib2.Request(url) response = urllib2.urlopen(request) print response.read()except urllib2.URLError, e: if..

2022-03-20 20:26:15 55

原创 Shell基础

一、关于shell1、什么是shell什么是shell?Shell(外壳)是一个用C语言编写的程序,它是用户使用Linux的桥梁。Shell既是一种命令语言,又是一种程序设计语言。Shell是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。什么是脚本?脚本简单地说就是一条条的文字命令,这些文字命令是可以看到的(如可以用记事本打开查看、编辑)。常见的脚本:JavaScript(JS,前端),VBScript,ASP,JSP,PHP(后端),SQL

2022-03-20 20:17:01 81

原创 高级MySQL

MySQL索引1.什么是索引? 一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,在生产环境中,我们遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,因此对查询语句的优化显然是重中之重。说起加速查询,就不得不提到索引了。 2.为什么要有索引呢? 索引在MySQL中也叫做“键”,是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能 非常关键,尤其是当表中的数据量越来越大时,索引对于性能的影响愈发重要。 索引优化应该是对查询性能优化最有效的手段了。索引能够轻

2022-03-20 19:45:22 34

原创 Linux指令

基础指令

2022-03-13 22:31:17 121

原创 Python网络爬虫

#导入功能库 urllib2import urllib2#调用urllib2库的urlopen方法 第一个参数url即为URLresponse = urllib2.urlopen("http://www.baidu.com")#response 对象有一个 read 方法,可以返回获取到的网页内容。print response.read()...

2022-03-13 21:51:35 113

原创 MySQL

创建库CREATE DATABASE IF NOT EXISTS 库名DEFAULT CHARSET utf8;使用库USE 库名;

2022-03-13 21:39:55 864

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除