- 博客(22)
- 收藏
- 关注
原创 Mysql数据库思维导图
Mysql数据库思维导图Mysql数据库流程图:#mermaid-svg-BCSR4K0QToNHwNxd {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-BCSR4K0QToNHwNxd .error-icon{fill:#552222;}#mermaid-svg-BCSR4K0QToNHwNxd .error-text{fill:#552222;stroke:#55
2022-05-07 13:16:53 404
原创 PowerDesigner建模(上)
PowerDesigner最基础的使用方法入门学习1:入门级使用PowerDesigner软件创建数据库我的PowerDesigner版本是16.5的,如若版本不一样,请自行参考学习即可。(打开软件即是此页面,可选择Create Model,也可以选择Do Not Show page Again,)2:首先创建概念数据模型,如图所示(后面介绍一些比如物理数据模型等等,由于此软件全部是英文的,所以作为一个chinese不是很懂的,耐心的多使用几次就好了。)请自行脑补概念模型(...
2022-05-06 21:48:47 282
原创 hadoop-2.6.1 winutil处理
原始数据HDFSwordshello tom hello jerry hello kitty hello world hello tom Map阶段1.每次读一行数据,2.拆分每行数据,3.每个单词碰到一次写个1<0, "hello tom"><10, "hello jerry"><22, "hello kitty"><34, "hello world"><4
2022-05-06 21:45:39 596
原创 网络爬虫&Matplotlib&
Matplotlib介绍Matplotlib是Python的绘图库,它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式。Matplotlib可以用来绘制各种静态,动态,交互式的图表。Matplotlib是一个非常强大的Python画图工具,我们可以使用该工具将很多数据通过图表的形式更直观的呈现出来。Matplotlib可以绘制线图、散点图、等高线图、条形图、柱状图、3D图形、甚至是图形动画等等。Matplotlib应用Matplotlib通常与NumPy和SciPy(Scien
2022-05-06 20:48:57 314
原创 hadoop2.2.0&HDFS的java访问接口
4.5.1.搭建 Hadoop 开发环境我们在工作中写完的各种代码是在服务器中运行的,HDFS 的操作代码也不例外。在开发阶段,我们使用 windows 下的 eclipse 作为开发环境,访问运行在虚拟机中的 HDFS。也就是通过在本地的 eclipse 中的 java 代码访问远程 linux 中的 hdfs。要使用宿主机中的 java 代码访问客户机中的 hdfs,需要保证以下几点:确保宿主机与客户机的网络是互通的 确保宿主机和客户机的防火墙都关闭,因为很多端口需要通过,为了减少防火墙配
2022-04-29 21:27:52 2174
原创 MySQL&索引优化&参数优化
Pandas 是 Python 语言的一个扩展程序库,用于数据分析。Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。Pandas 名字衍生自术语 "panel data"(面板数据)和 "Python data analysis"(Python 数据分析)。Pandas 一个强大的分析结构化数据的工具集,基础是Numpy(提供高性能的矩阵运算)。Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入.
2022-04-29 21:13:29 189
原创 网络爬虫&Pandas
Pandas 是 Python 语言的一个扩展程序库,用于数据分析。Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。Pandas 名字衍生自术语 "panel data"(面板数据)和 "Python data analysis"(Python 数据分析)。Pandas 一个强大的分析结构化数据的工具集,基础是Numpy(提供高性能的矩阵运算)。Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入.
2022-04-29 20:43:29 523
原创 hadoop2.2.0&ssh免登陆&HDFS的shell操作&HDFS的java访问接口
数据量越来越大,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。学术一点的定义就是:分布式文件系统是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。分布式文件管理系统很多,hdfsHDFS 只是其中一种。适用于一次写入、多次查询的情况,不支持并发写情况,小文件不合适。小提示:如何在刚开始学习的时候,形象化的地理解什么是HDFS哪呢
2022-04-21 21:30:12 2692
原创 MySQL优化
mysql查询优化mysql的性能优化包罗甚广: 索引优化,查询优化,查询缓存,服务器设置优化,操作系统和硬件优化,应用层面优化(web服务器,缓存)等等。这里的记录的优化技巧更适用于开发人员,都是从网络上收集和自己整理的,主要是查询语句上面的优化,其它层面的优化技巧在此不做记录。count的优化#比如:计算id大于5的城市 #a语句 select count(*) from world.city where id > 5;#b语句select (select count(*
2022-04-21 20:07:35 123
原创 网络爬虫Python+numpy
numpy介绍NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。NumPy 的前身 Numeric 最早是由 Jim Hugunin 与其它协作者共同开发,2005 年,Travis Oliphant 在 Numeric 中结合了另一个同性质的程序库 Numarray 的特色,并加入了其它扩展而开发了 NumPy。NumPy 为开放源代码并且由许多协作者共同维护开发。numpy安装
2022-04-21 18:57:44 841
原创 hadoop2.2.0伪分布式搭建
1.准备Linux环境 1.1 开启网络,ifconfig指令查看ip1.2 修改主机名为自己名字(hadoop) vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop 1.3修改主机名和IP的映射...
2022-04-09 15:44:23 114
原创 MySQL范式&存储过程&自定义函数&逻辑运算符和循环
存储过程MySQL 5.0 版本开始支持存储过程。存储过程(Stored Procedure)是一种在数据库中存储复杂程序,以便外部程序调用的一种数据库对象。 存储过程是为了完成特定功能的SQL语句集,经编译创建并保存在数据库中,用户可通过指定存储过程的名字并给定参数(需要时)来调用执行。 存储过程思想上很简单,就是数据库 SQL 语言层面的代码封装与重用。优点存储过程可封装,并隐藏复杂的商业逻辑。存储过程可以回传值,并可以接受参数。存储过程无法使用 SELECT 指令来运行,因为它是
2022-04-09 15:04:47 737
原创 网络爬虫 xpath表达式
在编写爬虫程序的过程中提取信息是非常重要的环节,但是有时使用正则表达式无法匹配到想要的信息,或者书写起来非常麻烦,此时就需要用另外一种数据解析方法,也就是本节要介绍的 Xpath 表达式。Xpath表达式XPath(全称:XML Path Language)即 XML 路径语言,它是一门在 XML 文档中查找信息的语言,最初被用来搜寻 XML 文档,同时它也适用于搜索 HTML 文档。因此,在爬虫过程中可以使用 XPath 来提取相应的数据。提示:XML 是一种遵守 W3C 标椎的标记语言,类
2022-04-09 14:23:28 979
原创 linux权限 服务
Linux的权限管理操作Linux的权限操作与用户、用户组是兄弟操作。一、权限概述总述:Linux系统一般将文件可存/取访问的身份分为3个类别:owner、group、others,且3种身份各有read、write、execute等权限。1、权限介绍什么是权限?在多用户(可以不同时)计算机系统的管理中,权限是指某个特定的用户具有特定的系统资源使用权力,像是文件夹、特定系统指令的使用或存储量的限制。在Linux中分别有读、写、执行权限:读权限: 对于文件...
2022-04-01 17:07:30 210
原创 MySQL视图&事务&触发器&存储过程
1视图视图是干什么用的?视图(view)是一种虚拟存在的表,是一个逻辑表,本身并不包含数据。作为一个select语句保存在数据字典中的。为什么要使用视图?因为视图的诸多优点,如下1 简单:使用视图的用户完全不需要关心后面对应的表的结构、关联条件和筛选条件,对用户来说已经是过滤好的复合条件的结果集。2 安全:使用视图的用户只能访问他们被允许查询的结果集,对表的权限管理并不能限制到某个行某个列,但是通过视图就可以简单的实现。3 数据独立:一旦视图的结构确定了,可以屏蔽表结构变化对用户的影响,
2022-04-01 16:41:30 221
原创 Scrapy框架入门
一、概述Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试. 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 后台也应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫. Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpide
2022-04-01 16:06:10 116
原创 高级MySQL
MySQL 索引1.什么是索引? 一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,在生产环境中,我们遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,因此对查询语句的优化显然是重中之重。说起加速查询,就不得不提到索引了。 2.为什么要有索引呢? 索引在MySQL中也叫做“键”,是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能 非常关键,尤其是当表中的数据量越来越大时,索引对于性能的影响愈发重要。 索引优化应该是对查询性能优化最有效的手段了。索引能
2022-03-18 21:17:16 505
原创 Python网络爬虫实战
1. 确定 URLfrom urllib import requestimport re#定义urlpage=50url="https://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn="+str(page)2.添加headers并抓取页面代码try: #定义请求头 headrs={"User-Agent":" Mozilla/5.0 (Windows NT 6.1; Win64; x64) A
2022-03-18 21:00:48 1269
原创 Shell基础
一、关于shell1、什么是shell什么是shell?Shell(外壳) 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。什么是脚本?脚本简单地说就是一条条的文字命令,这些文字命令是可以看到的(如可以用记事本打开查看、编辑)。常见的脚本: JavaScript(JS,前端),VBScript, ASP,JSP,
2022-03-18 20:43:30 156
原创 Python爬虫基础
Python 爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。调度器:相当于一台电脑的CPU,主要负责调度URL管理器、下载器、解析器之间的协调工作。URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存、数据库、缓存数据库来实现。网页下载器:通过传入一个URL地址来下载网页,将网页转换成一个字符串,网页下载器有urlli..
2022-03-11 17:15:07 183
原创 MySQL常用语法
#建库语法: CREATE DATABASE IF NOT EXISTS 库名 DEFAULT CHARSET编码格式;CREATE DATABASE IF NOT EXISTS yuesu DEFAULT CHARSET utf8;#使用库语法: USE库名USE yuesu#建表语法: CREATE TABLE IF NOT EXISTS表名( 字段名1 数据类型 主键自增, 字段名2数据类型(长度) 非空唯一 默认值 备注...
2022-03-11 16:31:26 257
原创 Linux常用指令
基础指令1、ls指令含义:ls (list)用法1:#ls含义:列出当前工作目录下的所有文件/文件夹的名称用法2:#ls 路径含义:列出指定路径下的所有文件/文件夹的名称关于路径(重要):路径可以分为两种:相对路径、绝对路径。相对路径:相对首先得有一个参照物(一般就是当前的工作路径); 相对路径的写法:在相对路径中通常会用到2个符号“./”【表示当前目录下】、“../”【上一级目录下】。绝对路径:绝对路径不需要参照物,直接从根“/”开始...
2022-03-11 13:09:01 544
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人