自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 网络爬虫&Matplotlib&

博客 下载·课程 学习 问答 社区 插件 认证 开源搜索会员中心足迹动态消息创作网络爬虫&Matplotlib&咕咚与随从于2022-05-06 20:48:57发布50收藏文章标签:python数据挖掘机器学习版权Matplotlib介绍Matplotlib是Python的绘图库,它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式。Matplotlib可以用来绘制各种静态,动态,交互式...

2022-05-08 20:52:00 155

原创 hadoop-2.6.1 winutil处理

原始数据HDFSwordshello tomhello jerryhello kittyhello worldhello tomMap阶段1.每次读一行数据,2.拆分每行数据,3.每个单词碰到一次写个1<0, "hello tom"><10, "hello jerry"><22, "hello kitty"><34, "hello world"><46, "hello tom...

2022-05-08 20:44:21 81

原创 PowerDesigner建模(上)

PowerDesigner最基础的使用方法入门学习1:入门级使用PowerDesigner软件创建数据库我的PowerDesigner版本是16.5的,如若版本不一样,请自行参考学习即可。(打开软件即是此页面,可选择Create Model,也可以选择Do Not Show page Again,)2:首先创建概念数据模型,如图所示(后面介绍一些比如物理数据模型等等,由于此软件全部是英文的,所以作为一个chinese不是很懂的,耐心的多使用几次就好了。)请自行脑补概念模型...

2022-05-08 20:43:33 137

原创 Mysql数据库思维导图

mysql数据类型:字符串varcharCHARTINYBLOBTINYTEXTBLOBTEXTMEDIUMBLOBMEDIUMTEXTLONGBLOBLONGTEXT日期DATETIMEYEARDATETIMETIMESTAMP数值TINYINTSMALLINTMEDIUMINTINT或INTEGERFLOATDOUBLEDECIMAL建库建表#建库CREATEDATABASE IF NOT EXISTSyuesu DEFAULT CHA...

2022-05-08 20:36:40 87

原创 网络爬虫&Pandas

Pandas 是 Python 语言的一个扩展程序库,用于数据分析。Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。Pandas 名字衍生自术语 "panel data"(面板数据)和 "Python data analysis"(Python 数据分析)。Pandas 一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算)。Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数

2022-05-01 21:07:25 112

原创 MySQL&索引优化&参数优化

1.对查询进行优化应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is null可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:select id from t where num=03.应尽量避免在 where 子句中使用!=或<>操作符,否

2022-05-01 21:06:08 84

原创 hadoop2.2.0&HDFS的java访问接口

4.5.1.搭建 Hadoop 开发环境我们在工作中写完的各种代码是在服务器中运行的,HDFS 的操作代码也不例外。在开发阶段,我们使用 windows 下的 eclipse 作为开发环境,访问运行在虚拟机中的 HDFS。也就是通过在本地的 eclipse 中的 java 代码访问远程 linux 中的 hdfs。要使用宿主机中的 java 代码访问客户机中的 hdfs,需要保证以下几点:确保宿主机与客户机的网络是互通的确保宿主机和客户机的防火墙都关闭,因为很多端口需要通过,为了减少防火墙配置

2022-05-01 21:04:48 66

原创 网络爬虫Python+numpy

numpy介绍NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。NumPy 的前身 Numeric 最早是由 Jim Hugunin 与其它协作者共同开发,2005 年,Travis Oliphant 在 Numeric 中结合了另一个同性质的程序库 Numarray 的特色,并加入了其它扩展而开发了 NumPy。NumPy 为开放源代码并且由许多协作者共同维护开发。numpy安装Micr

2022-04-24 21:45:54 132

原创 mysql查询优化

#比如:计算id大于5的城市#a语句select count(*) from world.city where id > 5;#b语句select (select count(*) from world.city) – count(*) from world.city where id <= 5;#a语句当行数超过11行的时候需要扫描的行数比b语句要多,#b语句扫描了6行,此种情况下,b语句比a语句更有效率。#当没有where语句的时候直接select count(*)...

2022-04-24 21:41:27 707

原创 hadoop2.2.0&ssh免登陆&HDFS的shell操作&HDFS的java访问接口

ssh免登陆生成ssh免登陆密钥1 cd ~,进入到我的home目录2 cd .ssh/3 ssh-keygen -t rsa (四个回车)4执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)5将公钥拷贝到要免登陆的机器上 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 或 ssh-copy-id -i localhostHDFS 的 shell...

2022-04-24 21:39:09 68

原创 网络爬虫,xpath

#导入lxml包下的etree类from lxml import etree#随意定义一段html代码块s=""" <div> <ul> <li class="item-0"><a href="link1.html">aaa</a></li> <li class="item-0"><a href="link2.html">bbb&lt...

2022-04-11 22:13:48 63

原创 Mysql事务

#使用库USE hbase;#创建表(实验用)CREATE TABLE b(id INT);#创建事务,开始一个事务。(起点)BEGIN;#插入表数据INSERT INTO b VALUES(1),(2),(3),(4),(5);#进行回滚(就是恢复到事务之前的样子,撤回从事务开始的所有操作)ROLLBACK;#当然,如果错误就进行回滚,正确那就可以进行保存#事务确认(终点)COMMIT;#查询表SELECT * FROM b;...

2022-04-11 22:12:25 652

原创 Linux设置主机名

一、设置主机名回顾:#hostname#hostname-fFQDN(全限定域名)①临时设置主机名(立竿见影),需要切换用户使之生效#hostname设置的主机名②永久设置主机名(需要重启)先找到一个文件/etc/sysconfig/network 【主机名的配置文件】修改其中的HOSTNAME为自己需要设置的永久主机名③修改linux服务器的hosts文件,将yunwei指向本地(设置FQDN)Hosts文件的位置:/etc/hosts问题:不设置FQDN会

2022-04-11 22:10:41 1964

原创 Scrapy框架安装&案例&入门

W1.安装indows 平台:我的系统是 Win7,首先,你要有 Python,我用的是 2.7.7 版本,Python3 相仿,只是一些源文件不同。 官网文档:Installation guide — Scrapy 2.6.1 documentation,最权威哒,下面是我的亲身体验过程。1. 安装 Python 安装过程我就不多说啦,我的电脑中已经安装了 Python 2.7.7 版本啦,安装完之后记得配置环境变量,比如我的安装在 D 盘,D:\python2.7.7,就把以下两个路径添加到 P

2022-04-03 19:19:54 65

原创 Msql事务&储存过程&触发器

1.事务原子性:一个事务(transaction)中的所有操作,要么全部完成,要么全部不完成,不会结束在中间某个环节。事务在执行过程中发生错误,会被回滚(Rollback)到事务开始前的状态,就像这个事务从来没有执行过一样。 一致性:在事务开始之前和事务结束以后,数据库的完整性没有被破坏。这表示写入的资料必须完全符合所有的预设规则,这包含资料的精确度、串联性以及后续数据库可以自发性地完成预定的工作。 隔离性:数据库允许多个并发事务同时对其数据进行读写和修改的能力,隔离性可以防止多个事务并发执行时由于交叉执

2022-04-03 19:18:30 77

原创 Linux权限&服务

Linux的权限管理操作Linux的权限操作与用户、用户组是兄弟操作。一、权限概述总述:Linux系统一般将文件可存/取访问的身份分为3个类别:owner、group、others,且3种身份各有read、write、execute等权限。1、权限介绍什么是权限?在多用户(可以不同时)计算机系统的管理中,权限是指某个特定的用户具有特定的系统资源使用权力,像是文件夹、特定系统指令的使用或存储量的限制。在Linux中分别有读、写、执行权限:读权限: 对于文件夹来说,读权...

2022-04-03 19:16:55 827

原创 Shell基础

一、关于shell1、什么是shell什么是shell?Shell(外壳) 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。什么是脚本?脚本简单地说就是一条条的文字命令,这些文字命令是可以看到的(如可以用记事本打开查看、编辑)。常见的脚本: JavaScript(JS,前端),VBScript, ASP,JSP,PHP(

2022-03-20 19:08:55 95

原创 Python网络爬虫实战

1. 确定 URLfrom urllib import requestimport re#定义urlpage=50url="https://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn="+str(page)2.添加headers并抓取页面代码try: #定义请求头 headrs={"User-Agent":" Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleW...

2022-03-20 19:06:55 77

原创 MySQL 索引

1.什么是索引? 一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,在生产环境中,我们遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,因此对查询语句的优化显然是重中之重。说起加速查询,就不得不提到索引了。 2.为什么要有索引呢? 索引在MySQL中也叫做“键”,是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能 非常关键,尤其是当表中的数据量越来越大时,索引对于性能的影响愈发重要。 索引优化应该是对查询性能优化最有效的手段了。索引能够轻易将查询性能提高.

2022-03-20 19:05:33 47

原创 网络爬虫基础——尹有鹏

1.爬虫入门程序 首先我们调用的是 urllib2 库里面的 urlopen 方法,传入一个 URL,这个网址是百度首页,协议是 HTTP 协议,当然你也可以把 HTTP 换做 FTP,FILE,HTTPS 等等,只是代表了一种访问控制协议, urlopen 一般接受三个参数,它的参数如下:urlopen(url, data, timeout) 第一个参数 url 即为 URL,第二个参数 data 是...

2022-03-13 16:36:44 940

原创 Linux常用指令——尹有鹏

基础指令1、ls指令含义:ls (list)用法1:#ls含义:列出当前工作目录下的所有文件/文件夹的名称用法2:#ls 路径含义:列出指定路径下的所有文件/文件夹的名称关于路径(重要):路径可以分为两种:相对路径、绝对路径。相对路径:相对首先得有一个参照物(一般就是当前的工作路径); 相对路径的写法:在相对路径中通常会用到2个符号“./”【表示当前目录下】、“../”【上一级目录下】。绝对路径:绝对路径不需要参照物,直接从根“/”开始寻找对应路径;...

2022-03-13 16:34:48 115

原创 SQL语法数据库—尹有鹏

#建库语法: CREATE DATABASE IF NOT EXISTS 库名 DEFAULT CHARSET 编码格式;CREATE DATABASE IF NOT EXISTS yuesu DEFAULT CHARSET utf8;#使用库语法: USE 库名USE yuesu#建表语法: CREATE TABLE IF NOT EXISTS 表名( 字段名1 数据类型 主键 自增, 字段名2 数据类型(长度) 非空 唯一 默认值 备注,...

2022-03-13 16:31:30 138

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除