- 博客(22)
- 收藏
- 关注
原创 hive简介及使用技巧
1.HIVE简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张数据库表,并提供简单的sql查询功能,可以将sql语句转化为mapreduce任务进行运行。hive定义了简单的类sql查询语言,称为HQL,允许熟悉SQL的用户查询数据。同时这个语言也允许熟悉MapReduce的开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法处理的复杂的分析工作。2.HIVE-DDLHive建表(压缩表和非压缩表)一个表可以拥有一个或
2021-07-08 16:31:13 441
原创 小白理解Session和Cookie区别
小白理解Session和Cookie区别导读:最近听室友面试百度,面试官问到了相关知识,所以特别去查了查。下面呢,首先拿个小例子方便大家理解。假如,你带你女朋友去买衣服。结账的时候,你问售货员小姐姐能不能便宜一点。于是发生了如下对话:你:我们上周才来买过衣服,能不能便宜一些?售货员:不好意思,记不起来您了,不好意思哦。这时店长走了过来,给了你一张小卡片,盖了一个章。店长:您好,欢迎来到我们这里购物。这个卡片可以作为来我们这里购物的凭证。来一次,我们将会为您盖一次章,并标注日期,如果不超过最近
2021-03-14 22:54:47 268
原创 tensorflow实战1-利用keras实现线性回归(含数据)
使用tf.keras实现简单的线性回归单变量的线性回归算法(eg:x代表学历,f(x)代表收入):f=ax+b定义损失函数:使用均方差(真实值与预测值之差的平方均值)作为损失函数;优化目标:找到合适的a,b,使得损失函数值最小;import tensorflow as tfimport pandas as pddata = pd.read_csv(r"./Income1.csv")#导入数据data = pd.read_csv(r"./Income1.csv")data.head(
2021-01-21 14:57:45 473
原创 json模块介绍及数据转化
json模块 应用Json模块实现将json类型的数据转化成python类型的数据,或是将python类型的数据转化成为json类型的数据。6.1 json模块介绍json是python自带的模块,用于json与python数据之间的相互转换。json数据与python数据类型之间的对应关系:JSONPYTHONobjectdictarrayliststringstrnumber(int)int , longnumber(r
2021-01-17 15:01:05 312
原创 正则表达式简介及使用介绍(含实例)
5.正则表达式5.1 正则表达式的概念与作用概念:正则表达式是一种字符串匹配的模式(pattern);作用:检查一个字符串中是否含有某种子串,替换匹配的字符串,提取某个字符串中匹配的子串;5.2 正则表达式的常见语法一般字符匹配自身a,b,c…a,b,c….匹配任意除换行符“\n”外的字符a.cabc,acc,ac…\转义字符,使后一个字符改变原来的意思 如果字符串中有*需要匹配,可以用*a\.ca\\ca.ca\c[…]字符集,对应的位置可以
2021-01-17 13:24:49 260
原创 爬虫4-HTML文本解析-BeautifulSoup使用介绍及案例展示
4. Beautiful Soup解析库1. Beautiful Soup 介绍与安装Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库。Beautiful Soup安装:1.安装Beautiful Soup 4pip install beautifulsoup42.安装 lxmlpip install lxml2.BeautifulSoup对象介绍与创建BeautifulSoup对象:代表要解析的整个文档树,支持遍历文档树和搜索文档树中描述的大
2021-01-16 20:07:33 643
原创 爬虫获取数据requests库使用介绍及案例
requests请求库1 requests介绍及安装 requests是一个优雅而简单的python HTTP请求库,也是爬虫项目最常用的HTTP请求库。其作用在于发送请求获取响应数据。安装requests请求库只需要在终端(命令行工具)运行这个简单命令即可:pip install requests注意:1.如果安装在Python虚拟环境中,先进入虚拟机环境再执行上述命令;2.如果系统中即安装了python2又安装了python3,需要安装再python3环境中:pip3 in
2021-01-16 14:54:19 870 1
原创 网络爬虫介绍
网络爬虫1.网络爬虫与浏览器区别 当使用浏览器访问网页时,都需要对服务器发送请求,当服务器响应请求后,即可获取响应数据,并对数据进行渲染。使用爬虫程序获取响应的数据资源,也需要对服务器发送请求,接着即可获得响应数据,但是此时得到的数据是图片/视频的二进制或者原始的HTML字符串,而不对网上的数据资源进行渲染。爬虫的目标是将得到的数据信息中找到有用的信息存储起来,方便后续的使用。二者之间的区别在于:浏览器是用于展示数据的,而网络爬虫是用于采集数据的。2.网络爬虫的定义和作用
2021-01-04 22:50:59 980
原创 剑指offer-重建二叉树c++实现
分析:对于二叉树的还原问题,首先应该对于先序遍历以及中序遍历的特点有一定的了解。每一个先序遍历的结点都是对应子树的根结点,于是在中序遍历中,位于该结点左边的为其左子树,右边的为其右子树。进行反复划分后,采取递归的方式解决问题。class Solution {public: TreeNode* PreOrderBulid(vector<int>& A,vector<int>& B,int l1,int h1,int l2,int h2){ T
2020-12-22 09:44:51 141
原创 Beacon技术相关介绍及应用
1.Beacon介绍Beacon 是建立在低功耗蓝牙协议基础上的一种广播协议,其工作方式是,配备有低功耗蓝牙(Bluetooth Low Energy,简称BLE,也就是常说的Bluetooth 4.0)通信功能的设备使用BLE技术向周围发送本设备特有的ID,接收到该ID的应用软件会根据该ID采取相应的响应。设备特有的ID即为UUID,是一个长度为128Bit的ID。工作原理:如下图所示,Beacon 会每隔一定的时间向周边环境广播一个数据包,作为独立的蓝牙主机(比如手机等)在执行扫描动作时,会间隔地接
2020-12-22 09:05:38 2846
原创 剑指offer-从尾打印链表cpp实现
分析:由于需要逆序,考虑使用栈的方式实现,对比于自定义栈的形式实现,可以考虑递归的方式使用系统中的栈;此时,虽然代码变得简单了不少,但是空间复杂度会变得较大。class Solution {public: vector<int> reversePrint(ListNode* head) { if(!head)//如果遍历到链表尾部,返回空 return {}; vector<int> a=reversePrint(head-
2020-12-21 11:35:13 93
原创 剑指offer-替换空格c++实现
分析:考虑采用双指针的形式进行遍历。每次双指针指向的区间都是一个单词,遇到空格则使用"%20"进行替换。为防止指针变量出错,所以每次取出一个单词则将原字符串截取掉最前面的那一部分,直到整个字符串被截取完毕;‘’‘’’...
2020-12-21 11:03:47 97
原创 剑指offer-二维数组中的查找cpp实现
注意:二维有序数组具有从右上角开始查找,如果比目标值大则向右移动,比目标值小则相下移动,而不错过正确解的特性,所以利用它这一特性,可以一次比较排除多种可能,从而不必暴力求解。class Solution { public: bool findNumberIn2DArray(vector<vector<int>>& matrix, int target) { if(matrix.size()==0||matrix[0].size()==0||matrix[0][0]>t
2020-12-20 11:33:06 142 1
原创 传统数据库数据模型及数据库系统实现
数据模型是现实世界数据特征的抽象,用于描述一组数据的概念和定义。由于计算机不能直接处理现实的事物,所以人们只有将现实事物抽象转成数字化的数据,才能让计算机识别处理。数据模型是数据库中数据的存储方式,是数据库系统的基础。数据模型主要包括概念数据模型、逻辑数据模型和物理数据模型三方面。数据模型所描述的部分包含数据结构、数据操作和数据约束三个部分。数据结构用于描述系统的静态特征,包括数据的类型、内容、性质及数据之间的联系等。它是数据模型的基础,也是刻画一个数据模型性质最重要的方面。数据操作用于描述系统的动态特征,
2020-12-15 16:54:30 1070
原创 区块链与去中心化数据库
关系数据模型、优化与索引、事务模型是数据库技术发展取得的主要成就,但是保持数据一致性是数据库系统实现的基本要求。保证数据一致性包括关系依赖的数据保证某种约束条件以及数据的多个副本保持一致性。为满足互联网的发展,可扩展的数据库系统经历了从通过大型机器提供的计算和存储能力实现垂直的可扩展性到当前主要依靠增加廉价机器提升计算和存储能力实现水平扩展能力。但是在水平扩展性框架下,通过Paxos协议达成数据一致性仅能在几个副本之间达成,数据的管理权限控制在单个实体中。利用去中心化的思想,可以实现在参与主体间保持数据的一
2020-12-15 16:52:33 2414 1
原创 RDF数据模型与知识库(知识图谱)
由于万维网上的信息没有统一的表示方式,这给数据管理带来了困难。如果网络中的资源在创建之初就使用标准的元数据来描述,就可以省去许多的麻烦。其中RDF(资源描述框架)可以同来描述和注解万维网中的资源并向计算机系统提供理解和交换数据的手段。RDF是一种资源描述语言,它受到元数据标准、框架系统、面向对象语言等多方面的影响。RDF其本质是一个数据模型,提供了一个统一的标准,用于描述实体/资源。简单来说,就是表示事物的一种方法和手段。RDF由节点和边组成,节点表示实体/资源和属性,边则表示了实体和实体之间的关系以及实体
2020-12-15 16:50:32 3461
原创 多维数据模型与大数据应用
在传统的应用场景下,企业都是利用关系型数据库来存储和管理业务数据,并建立相应的应用系统来支持日常的业务运作。但是随着信息社会的发展,如何从大数据中提取出对企业决策分析有用的信息,这成为企业决策管理人员所面临的重要难题。应用于决策支持的数据属于统计、概括性数据,而非细节性的数据。传统的OLTP系统中,存储的都是细节性的数据,已经无法应用于大数据场景下的决策支持。于是,OLAP(联机分析处理)应运而成,OLAP基于多维数据库和多维分析,存储的主要是信息数据,以基于大数据实现支持管理分析为主要目的。OLAP是直
2020-12-15 16:49:53 953
原创 XML数据模型与半结构化数据管理
传统关系数据库中所存储的数据通常为结构化数据。但是现实应用中,存在大量半结构化的数据,这些数据很难用关系数据库中规范的表格对这些数据进行存储。对于这类半结构化数据,提出了使用XML语言来进行存储。XML作为可扩展的标记语言,允许用户定义某些元素的标记。在数据库研究中,可以将XML看作一种数据模型,并且使用XML来管理现实世界中结构化、半结构化的数据和信息。XML数据模型由表示XML文档的结点标记树、结点标记树之上的操作和语义约束组成。XML结点标记树中包括不同类型的结点。其中文档结点是树的根结点,XML文
2020-12-15 16:49:06 1750
原创 大数据等现代信息技术下,传统数据库技术遇到的挑战
数据库技术从理论研究到原型开发与技术攻关,再到实际产品研制和应用,形成了良性循环。数据、应用需求和计算机硬件技术是推动数据库发展的三个主要动力。随着大数据时代的到来,数据库技术、更广义的数据管理技术和数据处理技术遇到了前所未有的挑战,也迎来了新的发展机遇。一方面的挑战来源于数据的变化。随着数据获取手段的自动化、多样化与智能化,数据量越来越巨大,对于海量数据的存储和管理,要求系统具有高度的扩展性和可伸缩性,以满足数据量不断增长的需要。传统的分布式数据库和并行数据库在可扩展性和可伸缩性方面明显不足。数据类型越
2020-12-15 16:48:12 2120
原创 深度学习入门简述-神经网络和逻辑回归关系
深度学习常用模型如下,在下面这个模型中:整个模型的输入是一个特征向量(样本),中间每一个神经元都是一个小的逻辑回归的模型,特征向量的每一维与Hidden layers、Hidden layers内部之间、Hidden layers与output layer之间都是两两相连的,并且从左向右输出,所以称为Fully Connect Feedforward Network。deep learning中的deep指的是多层的Hidden layers。**Matrix Operation:**在多层模型中
2020-11-17 10:24:44 1529
原创 逻辑回归与线性回归比较
逻辑回归与线性回归比较:*logistic Regressionlinear Regressionstep1:建模fw,b(x)=σ(∑iwixi+b)f_{w,b}(x)=\sigma(\sum_{i}{w_ix_i+b})fw,b(x)=σ(∑iwixi+b)fw,b(x)=∑iwixi+bf_{w,b}(x)=\sum_{i}{w_ix_i+b}fw,b(x)=∑iwixi+boutput:由于借助了sigmoid函数,取值仅能为0-1output
2020-11-12 12:09:54 190
原创 梯度下降详解
2.Gradient Descent2.1 ReviewΘ∗=argmaxL(Θ)L:损失函数Θ:参数\Theta^*=argmax\quad L(\Theta)\quad \quad L:损失函数\quad \Theta:参数Θ∗=argmaxL(Θ)L:损失函数Θ:参数梯度下降的整个过程可以表示为:随机选取一个初始的参数值Θ0\Theta_0Θ0;计算损失函数在参数为Θ0\Theta_0Θ0时的值的梯度;计算Θ1=Θ0−η∇C(Θ0)\Theta_1=\Theta_0-\eta.
2020-11-12 10:31:37 491 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人