python,数据库 python操作mysql数据库Python 标准数据库接口为 Python DB-API,Python DB-API为开发人员提供了数据库应用编程接口。Python 数据库接口支持非常多的数据库,你可以选择适合你项目的数据库:GadFlymSQLMySQLPostgreSQLMicrosoft SQL Server 2000InformixInterbaseOracleSybase你可以访问Py...
DQL 一、DQL概述DQL(Data Query Language):数据查询语言,用来查询记录(数据)。 数据库执行DQL语句不会对数据进行改变,而是让数据库发送结果集给客户端。 查询返回的结果集是一张虚拟表。二、DQL基本操作查询关键字:SELECT 12语法:SELECT 列名 FROM表名 【WHERE --> GROUP BY -->HAVING--> ORDER BY】...
scrapy爬取智联网 1.在之前爬取的JobSpider中的Terminal终端中,直接创建新的文件scrapy genspider zlzp baidu.com2.开始解析数据1) 先大致规划一下需要几个函数2) 函数1跳转到函数2使用 yield scrapy.Request(url,callback,meta,dont_filter) # -*- coding: utf-8 -*-...
简单的实现爬虫爬取网页文本和图片 一 基本概念在Python中,我们使用urllib2这个组件来抓取网页。urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。它以urlopen函数的形式提供了一个非常简单的接口。二 HTML 的组成部分(1)DTD头,用于告诉浏览器用什么语言来解析当前页面。 (2) Head 告诉浏览器一些相关的信息。 (3) Body 包含...
python闭包 1.定义 闭包是函数式编程的一个重要的语法结构,函数式编程是一种编程范式 (而面向过程编程和面向对象编程也都是编程范式)。在面向过程编程中,我们见到过函数(function);在面向对象编程中,我们见过对象(object)。函数和对象的根本目的是以某种逻辑方式组织代码,并提高代码的可重复使用性(reusability)。闭包也是一种组织代码的结构,它同样提高了代码的可重复使用性。 不同...
hivesql优化 1. 业务处理优化原则Hive对复杂SQL没有关系形数据库表现好,业务过程可使用临时表使用过程更清晰简单; 关联条件尽可能避免使用函数、正则表达式。 使用MAPJOIN()会将较小的表 加载到内存中,使连结过程在Map阶段完成 分区避免数据倾斜问题。 jobs数比较多的作业运行效率相对比较低。 可选择tez方式加快小数据量的查询速度。 不要求全局有序时使用Distribute...
大数据中,hivesql Hive提供了很多的函数,可以在命令行下显示函数罗列所有的函数,你会发现这些函数名与mysql的很相近,绝大多数相同的,可通过描述函数functionName查看函数使用方法。 hive支持的数据类型很简单就INT(4字节整数),BIGINT(8 字节整数),FLOAT(单精度),DOUBLE(双精度),BOOLEAN,STRING等原子类型,连日期时间类型也不支持,通过TO_DATE,U...
大数据中hive 一、HIVE介绍 HIVE产生的目的:方便非java编程者对hdfs数据进行MapReduce操作 HIVE概念:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的M...
hadoop 结构化查询语言(Structured Query Language)简称SQL(发音:/ˈes kjuː ˈel/ "S-Q-L"),是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统;同时也是数据库脚本文件的扩展名。结构化查询语言是高级的非过程化编程语言,允许用户在高层数据结构上工作。它不要求用户指定对数据的存放方法,也不需要用户了解具体...
RDD功能介绍 RDD类型有两种类型的RDD: 并行集合(Parallelized Collections):来自于分布式化的数据对象比 如PYTHON 中的list 对象.比如用户自己键入的数据。 文件系统数据集(如 Hadoop Datasets 或文本文件.比如通过 SparkContext.textFile() 读取的数据。 并行化RDD 并行化集合是通过调用...
Spark-core 运行机理 一个简单的例子// 需要对名为逗hello.txt地的HDFS文件进行一次map操作,再进行一次reduce操作。也就是说,需要对一份数据执行两次算子操作。// 错误的做法:对于同一份数据执行多次算子操作时,创建多个RDD。// 这里执行了两次textFile方法,针对同一个HDFS文件,创建了两个RDD出来,然后分别对每个RDD都执行了一个算子操作。// 这种情况下,Spark需要从HD...
Xshell5 xshell连接Linux不能使用命令,可能是ssh没有连接成功,按照下面正确方法重新连接即可,步骤如下:1.打开xshell,点击“New”--“New Session Properties”,输入这个连接名字,host项填写访问主机的IP如“192.158.0.0”,然后点击“OK”按钮。2.点击后会出现名为“session”会话,在这个会话窗口,看到了刚刚小编新建的一个主机连接,使用鼠标...
如何在 Linux 中创建一个共享目录 作为系统管理员,你可能有一个特定目录,你希望为 Linux 服务器上的每个用户授予读/写访问权限。在本指南中,我们将回顾如何在 Linux 中对特定目录(共享目录)上的所有用户启用写访问。这要求设置适当的访问权限,而最有效、可靠的方法是为所有要共享或对特定目录的写访问权的用户分配一个公共组。如果你系统中还没有这个目录和公众组,用下面的命令创建: $ sudo mkdir -p ...
如何创建虚拟机 首先,应该下载软件,注意其组件至少150MB,如果电脑配置过低,比如硬盘才200~300G,或内存1G,请考虑慎重后使用(有可能会蓝屏、死机)。另外安装目录不要在C盘,除非容量巨大>50G。 其次,一般用户要注册,不然要改电脑日期(可以琢磨琢磨如何获得注册码,也不难): 打开已经安装完的VM(注意不要有太多后台程序运行,比如360瑞星之类) 其...
linux下创建文件和文件夹 使用linux系统会有一些常见的命令,譬如说,创建文件夹,创建文件,这些命令都是比较常见的。方法/步骤 首先说一下touch 创建二进制文件,用法就非常的简单,touch+文件名 之间一定要空格。先查看一下有什么文件 譬如我下面要创建一个mn的文件 touch mn 回车就可以创建,创建完成以后ls查看一下 创建文件夹,...
Xshell怎么连接数据库 在IT工作中我们经常使用一种连接远程服务器客户端,前面介绍过一种工具Xshell,对于远程连接linux服务器支持比较好,今天继续给大家分享使用Xshell如何连接服务器?工具/原料Xshell方法/步骤 首先运行Xshell客户端,没有安装的同学,请下载后安装 然后连接我们的远程服务器 建立连接以后在命令行输入框中输入数据库的连接口...
hadoop hadoop是分布式计算。运行Hadoop集群的准备工作解压所下载的Hadoop发行版。编辑 conf/hadoop-env.sh文件,至少需要将JAVA_HOME设置为Java安装根路径。尝试如下命令:$ bin/hadoop 将会显示hadoop 脚本的使用文档。现在你可以用以下三种支持的模式中的一种启动Hadoop集群:单机模式 伪分布式模式 完全分布式模式...
基于Virtualbox虚拟机搭建hadoop集群环境 1.1安装centos7在centos官网下载centos7镜像文件,在Virtualbox软件中导入镜像文件进行安装,本次由于实验环境限制,只安装了三台centos7虚拟机,分别命名为hadoop1,hadoop2,hadoop3,为保证三台虚拟机能够正常通信,三台虚拟机的网络连接方式均设置为仅主机(Host-only)适配器模式,每台虚拟机分配内存为2G,存储为8G。在VrtualBox中...
Django Admin什么意思 Django 提供了基于 web 的管理工具。Django 自动管理工具是 django.contrib 的一部分。你可以在项目的 settings.py 中的 INSTALLED_APPS 看到它:/HelloWorld/HelloWorld/settings.py 文件代码:INSTALLED_APPS = ( 'django.contrib.admin', 'django.con...
django后台编写 django的后台我们只要加少些代码,就可以实现强大的功能。与后台相关文件:每个app中的 admin.py 文件与后台相关。 下面示例是做一个后台添加博客文章的例子:一,新建一个 名称为 zqxt_admin 的项目 1 django-admin.py startproject zqxt_admin 二,新建一个 叫做 blog 的ap...