自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 收藏
  • 关注

原创 scrapy爬取智联网

1.在之前爬取的JobSpider中的Terminal终端中,直接创建新的文件scrapy genspider zlzp baidu.com2.开始解析数据1) 先大致规划一下需要几个函数2) 函数1跳转到函数2使用 yield scrapy.Request(url,callback,meta,dont_filter)  # -*- coding: utf-8 -*-...

2018-08-27 16:28:03 451

原创 简单的实现爬虫爬取网页文本和图片

一 基本概念在Python中,我们使用urllib2这个组件来抓取网页。urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。它以urlopen函数的形式提供了一个非常简单的接口。二 HTML 的组成部分(1)DTD头,用于告诉浏览器用什么语言来解析当前页面。 (2) Head 告诉浏览器一些相关的信息。 (3) Body 包含...

2018-08-24 15:41:46 5031

原创 python闭包

1.定义  闭包是函数式编程的一个重要的语法结构,函数式编程是一种编程范式 (而面向过程编程和面向对象编程也都是编程范式)。在面向过程编程中,我们见到过函数(function);在面向对象编程中,我们见过对象(object)。函数和对象的根本目的是以某种逻辑方式组织代码,并提高代码的可重复使用性(reusability)。闭包也是一种组织代码的结构,它同样提高了代码的可重复使用性。   不同...

2018-08-22 14:51:00 660

原创 hivesql优化

 1. 业务处理优化原则Hive对复杂SQL没有关系形数据库表现好,业务过程可使用临时表使用过程更清晰简单; 关联条件尽可能避免使用函数、正则表达式。 使用MAPJOIN()会将较小的表 加载到内存中,使连结过程在Map阶段完成 分区避免数据倾斜问题。 jobs数比较多的作业运行效率相对比较低。 可选择tez方式加快小数据量的查询速度。 不要求全局有序时使用Distribute...

2018-08-20 16:06:21 402

原创 大数据中,hivesql

Hive提供了很多的函数,可以在命令行下显示函数罗列所有的函数,你会发现这些函数名与mysql的很相近,绝大多数相同的,可通过描述函数functionName查看函数使用方法。 hive支持的数据类型很简单就INT(4字节整数),BIGINT(8 字节整数),FLOAT(单精度),DOUBLE(双精度),BOOLEAN,STRING等原子类型,连日期时间类型也不支持,通过TO_DATE,U...

2018-08-18 09:17:38 194

原创 大数据中hive

一、HIVE介绍    HIVE产生的目的:方便非java编程者对hdfs数据进行MapReduce操作    HIVE概念:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的M...

2018-08-15 19:26:59 1688

原创 hadoop

结构化查询语言(Structured Query Language)简称SQL(发音:/ˈes kjuː ˈel/ "S-Q-L"),是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统;同时也是数据库脚本文件的扩展名。结构化查询语言是高级的非过程化编程语言,允许用户在高层数据结构上工作。它不要求用户指定对数据的存放方法,也不需要用户了解具体...

2018-08-13 14:20:41 113

原创 RDD功能介绍

  RDD类型有两种类型的RDD:      并行集合(Parallelized Collections):来自于分布式化的数据对象比 如PYTHON 中的list 对象.比如用户自己键入的数据。    文件系统数据集(如 Hadoop Datasets 或文本文件.比如通过 SparkContext.textFile() 读取的数据。  并行化RDD    并行化集合是通过调用...

2018-08-10 19:02:27 496

原创 Spark-core 运行机理

一个简单的例子// 需要对名为逗hello.txt地的HDFS文件进行一次map操作,再进行一次reduce操作。也就是说,需要对一份数据执行两次算子操作。// 错误的做法:对于同一份数据执行多次算子操作时,创建多个RDD。// 这里执行了两次textFile方法,针对同一个HDFS文件,创建了两个RDD出来,然后分别对每个RDD都执行了一个算子操作。// 这种情况下,Spark需要从HD...

2018-08-08 19:03:21 135

原创 Xshell5

xshell连接Linux不能使用命令,可能是ssh没有连接成功,按照下面正确方法重新连接即可,步骤如下:1.打开xshell,点击“New”--“New Session Properties”,输入这个连接名字,host项填写访问主机的IP如“192.158.0.0”,然后点击“OK”按钮。2.点击后会出现名为“session”会话,在这个会话窗口,看到了刚刚小编新建的一个主机连接,使用鼠标...

2018-08-06 14:36:55 293

原创 如何在 Linux 中创建一个共享目录

作为系统管理员,你可能有一个特定目录,你希望为 Linux 服务器上的每个用户授予读/写访问权限。在本指南中,我们将回顾如何在 Linux 中对特定目录(共享目录)上的所有用户启用写访问。这要求设置适当的访问权限,而最有效、可靠的方法是为所有要共享或对特定目录的写访问权的用户分配一个公共组。如果你系统中还没有这个目录和公众组,用下面的命令创建: $ sudo mkdir -p ...

2018-08-03 19:37:34 11590 1

原创 如何创建虚拟机

首先,应该下载软件,注意其组件至少150MB,如果电脑配置过低,比如硬盘才200~300G,或内存1G,请考虑慎重后使用(有可能会蓝屏、死机)。另外安装目录不要在C盘,除非容量巨大>50G。   其次,一般用户要注册,不然要改电脑日期(可以琢磨琢磨如何获得注册码,也不难):      打开已经安装完的VM(注意不要有太多后台程序运行,比如360瑞星之类) 其...

2018-08-02 09:32:23 5258

原创 linux下创建文件和文件夹

使用linux系统会有一些常见的命令,譬如说,创建文件夹,创建文件,这些命令都是比较常见的。方法/步骤   首先说一下touch 创建二进制文件,用法就非常的简单,touch+文件名   之间一定要空格。先查看一下有什么文件   譬如我下面要创建一个mn的文件  touch mn  回车就可以创建,创建完成以后ls查看一下   创建文件夹,...

2018-07-30 15:48:49 35495

原创 Xshell怎么连接数据库

       在IT工作中我们经常使用一种连接远程服务器客户端,前面介绍过一种工具Xshell,对于远程连接linux服务器支持比较好,今天继续给大家分享使用Xshell如何连接服务器?工具/原料Xshell方法/步骤 首先运行Xshell客户端,没有安装的同学,请下载后安装 然后连接我们的远程服务器 建立连接以后在命令行输入框中输入数据库的连接口...

2018-07-27 15:20:42 11222

原创 hadoop

hadoop是分布式计算。运行Hadoop集群的准备工作解压所下载的Hadoop发行版。编辑 conf/hadoop-env.sh文件,至少需要将JAVA_HOME设置为Java安装根路径。尝试如下命令:$ bin/hadoop 将会显示hadoop 脚本的使用文档。现在你可以用以下三种支持的模式中的一种启动Hadoop集群:单机模式 伪分布式模式 完全分布式模式...

2018-07-25 15:26:47 159

原创 基于Virtualbox虚拟机搭建hadoop集群环境

1.1安装centos7在centos官网下载centos7镜像文件,在Virtualbox软件中导入镜像文件进行安装,本次由于实验环境限制,只安装了三台centos7虚拟机,分别命名为hadoop1,hadoop2,hadoop3,为保证三台虚拟机能够正常通信,三台虚拟机的网络连接方式均设置为仅主机(Host-only)适配器模式,每台虚拟机分配内存为2G,存储为8G。在VrtualBox中...

2018-07-23 14:58:18 1462

原创 Django Admin什么意思

Django 提供了基于 web 的管理工具。Django 自动管理工具是 django.contrib 的一部分。你可以在项目的 settings.py 中的 INSTALLED_APPS 看到它:/HelloWorld/HelloWorld/settings.py 文件代码:INSTALLED_APPS = ( 'django.contrib.admin', 'django.con...

2018-07-20 21:10:10 684

原创 django后台编写

django的后台我们只要加少些代码,就可以实现强大的功能。与后台相关文件:每个app中的 admin.py 文件与后台相关。 下面示例是做一个后台添加博客文章的例子:一,新建一个 名称为 zqxt_admin 的项目 1 django-admin.py startproject zqxt_admin 二,新建一个 叫做 blog 的ap...

2018-07-18 19:15:24 705

原创 django创建后台

如果想让用户在Django 管理后台创建用户,要赋予它添加用户和修改用户的权限(即“Add user”和“change user”权限)。如果用户只有权添加用户而无权修改用户,就无法添加用户。为什么?因为有权添加用户就能创建超级用户,如此以来就能修改其他用户。所以,出于安全考虑,Django强制要求必须兼具“添加”和“修改”两个权限。1.创建应用 python manage....

2018-07-16 20:31:59 265

原创 django 创建一个web站点

一、新建project使用Pycharm,File->New Project…,选择Django,给project命名(project不能用test命名) 新建的project目录如下:settings.py:工程相关的配置urls.py:网站访问入口,对应到viewswigs.py:部署相关manage.py:执行命令templates:html等静态文件 备注:新建工程后需要安装djan...

2018-07-13 19:52:36 522

原创 django 之分页功能

Django提供了一个新的类来帮助你管理分页数据,这个类存放在django/core/paginator.py.它可以接收列表、元组或其它可迭代的对象。基本语法12345678910class Paginator(object):     def __init__(self, object_list, per_page, orphans=0,                 allow_empty...

2018-07-11 21:23:11 290

原创 django创建网页

Django 管理工具安装 Django 之后,您现在应该已经有了可用的管理工具 django-admin.py。我们可以使用 django-admin.py 来创建一个项目:我们可以来看下django-admin.py的命令介绍:[root@solar ~]# django-admin.pyUsage: django-admin.py subcommand [options] [args]...

2018-07-09 20:29:56 320

原创 如何用django创建网页

本文演示如何创建一个简单的 django 网站,使用的 django 版本为1.7。1. 创建项目运行下面命令就可以创建一个 django 项目,项目名称叫 mysite :$ django-admin.py startproject mysite创建后的项目目录如下:mysite├── manage.py└── mysite ├── __init__.py ├── settings....

2018-07-06 20:26:07 1329

原创 Django 创建一个项目

Django 创建第一个项目本章我们将介绍Django 管理工具及如何使用 Django 来创建项目,第一个项目我们以 HelloWorld 来命令项目。测试版本说明:Python 2.7.10Django 1.10.6Django 管理工具安装 Django 之后,您现在应该已经有了可用的管理工具 django-admin.py。我们可以使用 django-admin.py 来创建一个项目:我们...

2018-07-04 20:21:51 101

原创 diango创建简单的基本流程

高内聚,低耦合高内聚:一个模块内部一个功能。低耦合:每个模块各司其职,尽量零关联。创建django项目1、django-admin startproject hero(项目名称)进入hero目录,目录结构如下图:manage.py:一个命令行工具,可以使你用多种方式对Django项目进行交互内层的目录hero:项目的真正的Python包_init _.py:一个空文件,它告诉Python这个目录应...

2018-07-02 19:56:02 432

原创 Diango做blog.docx

diango_blogDjango简介Django(维基百科) Django是一个开放源代码的Web应用框架,由Python写成。采用了MVC的软件设计模式,即模型M,视图V和控制器C。它最初是被开发来用于管理劳伦斯出版集团旗下的一些以新闻内容为主的网站的。并于2005年7月在BSD许可证下发布。这套框架是以比利时的吉普赛爵士吉他手Django Reinhardt来命名的。Django的主要目标是...

2018-06-29 20:52:05 230

原创 Django

Python下有许多款不同的 Web 框架。Django是重量级选手中最有代表性的一位。许多成功的网站和APP都基于Django。Django是一个开放源代码的Web应用框架,由Python写成Django 管理工具安装 Django 之后,您现在应该已经有了可用的管理工具 django-admin.py。我们可以使用 django-admin.py 来创建一个项目:我们可以来看下django-a...

2018-06-27 19:44:26 127

原创 mysql,视图

1.视图 视图又叫虚表。同真实的表一样,视图包含一系列带有名称的列和行数据。但是,视图并不在数据库中以存储的数据值集形式存在。行和列数据来自由定义视图的查询所引用的表,并且在引用视图时动态生成。视图主要有以下作用:1、安全,权限控制。一些数据表有着重要的信息。有些字段是保密的,不能让用户直接看到。这时就可以创建一个视图,在这张视图中只保留一部分字段。这样,用户就可以查询自己需要的字段,...

2018-06-25 20:25:04 454

原创 mysql,事务

MySQL 事务主要用于处理操作量大,复杂度高的数据。比如说,在人员管理系统中,你删除一个人员,你即需要删除人员的基本资料,也要删除和该人员相关的信息,如信箱,文章等等,这样,这些数据库操作语句就构成一个事务!在 MySQL 中只有使用了 Innodb 数据库引擎的数据库或表才支持事务。事务处理可以用来维护数据库的完整性,保证成批的 SQL 语句要么全部执行,要么全部不执行。事务用来管理 inse...

2018-06-22 22:59:14 51

原创 mysql事务

MySQL 事务主要用于处理操作量大,复杂度高的数据。比如说,在人员管理系统中,你删除一个人员,你即需要删除人员的基本资料,也要删除和该人员相关的信息,如信箱,文章等等,这样,这些数据库操作语句就构成一个事务!在 MySQL 中只有使用了 Innodb 数据库引擎的数据库或表才支持事务。事务处理可以用来维护数据库的完整性,保证成批的 SQL 语句要么全部执行,要么全部不执行。事务用来管理 inse...

2018-06-22 22:51:41 66

原创 DQL、DML、DDL、DCL)简介

SQL语言共分为四大类:数据查询语言DQL,数据操纵语言DML,数据定义语言DDL,数据控制语言DCL。1. 数据查询语言DQL数据查询语言DQL基本结构是由SELECT子句,FROM子句,WHERE子句组成的查询块:SELECT <字段名表>FROM <表或视图名>WHERE <查询条件>2 .数据操纵语言DML数据操纵语言DML主要有三种形式:1) 插入:I...

2018-06-18 19:57:47 886

原创 DQL

一、DQL概述DQL(Data Query Language):数据查询语言,用来查询记录(数据)。 数据库执行DQL语句不会对数据进行改变,而是让数据库发送结果集给客户端。 查询返回的结果集是一张虚拟表。二、DQL基本操作查询关键字:SELECT 12语法:SELECT 列名 FROM表名 【WHERE --> GROUP BY -->HAVING--> ORDER BY】...

2018-06-18 19:48:15 116

原创 Mysql基础命令——DML

DML是用来存储和保护所有已授权的被确认版本介质配置项,由CMDB(ITIL 配置管理)联邦提出。他们存储经过质检的主拷贝版本。这个库可以有一个或多个软件库或存放区来存放开发、测试和实时存储文件。他们包含组织所有软件的主拷贝、购买软件的副本及受控文件的电子版。DML包含物理的拷贝存储,DML是发布管理的基础。配置管理负责控制组织接收到的所有IT 组件并需确保这些组件被记录在系统中。硬件可在其已订购...

2018-06-15 20:22:28 219

原创 mysql编程

什么是数据库?数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,每个数据库都有一个或多个不同的API用于创建,访问,管理,搜索和复制所保存的数据。我们也可以将数据存储在文件中,但是在文件中读写数据速度相对较慢。所以,现在我们使用关系型数据库管理系统(RDBMS)来存储和管理的大数据量。所谓的关系型数据库,是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库...

2018-06-13 19:18:35 592

原创 递归函数

1.初始递归  递归属于函数中的一种特殊函数,功能迅速并且干净利落,在函数中递归的基本就是在函数中调用自己本身  1234def func():    print(111)    func()func()#将会无限循环‘111’并且在第998次的时候停止,python内部的保护机制。  2.递归中的保护机制  由于递归是调用自身那么将会面对一个严重的问题,那就是会不断的调用自己,并且不断创建一个新...

2018-06-08 20:42:17 151

原创 递归函数

1.初始递归  递归属于函数中的一种特殊函数,功能迅速并且干净利落,在函数中递归的基本就是在函数中调用自己本身  1234def func():    print(111)    func()func()#将会无限循环‘111’并且在第998次的时候停止,python内部的保护机制。  2.递归中的保护机制  由于递归是调用自身那么将会面对一个严重的问题,那就是会不断的调用自己,并且不断创建一个新...

2018-06-08 20:02:36 117

原创 数据结构哈弗曼树的建立

一、实验目的1. 理解哈夫曼树及其应用。2. 掌握生成哈夫曼树的算法。二、实验原理构造哈夫曼树就是找带全路径长度最短的树,再根据构造出来的树找出结点对应的哈夫曼编码(1)Select()函数:从无双亲的结点中选出权值最小的一个实现步骤:先假设一个无双亲的结点k为最小结点,接着遍历所有无双亲的结点,只要检查到某个结点的权值比当前结点k的权值更小,就把这个更小的结点设为最小结点k,所以最后得到的K就是...

2018-06-06 19:32:34 861

原创 python,数据库

python操作mysql数据库Python 标准数据库接口为 Python DB-API,Python DB-API为开发人员提供了数据库应用编程接口。Python 数据库接口支持非常多的数据库,你可以选择适合你项目的数据库:GadFlymSQLMySQLPostgreSQLMicrosoft SQL Server 2000InformixInterbaseOracleSybase你可以访问Py...

2018-06-04 20:06:05 327

原创 网络编程

Python3 网络编程Python 提供了两个级别访问的网络服务。:低级别的网络服务支持基本的 Socket,它提供了标准的 BSD Sockets API,可以访问底层操作系统Socket接口的全部方法。高级别的网络服务模块 SocketServer, 它提供了服务器中心类,可以简化网络服务器的开发。什么是 Socket?Socket又称"套接字",应用程序通常通过"套接字"向网络发出请求或者...

2018-06-01 23:00:12 371

原创 Python中xml初始数据已及csv文件和多线程

项目的研发或者上线阶段,为了方便,可能需要初始化数据库:包括用户,权限,或者一些其他的基础数据。我这里采用的是解析Xml文件初始化数据库。 (1)Xml文件的格式如下:  (2)配置初始化数据的Servlet     在web.xml中配置     <servlet><servlet-name>PersistenceTest</servlet-name><...

2018-05-30 20:32:54 214

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除