自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

夏革

都是些备忘笔记

  • 博客(39)
  • 收藏
  • 关注

转载 前后端技术科普

文章目录数据处理数据恢复数据埋点数据库索引硬件知识CPU GPU刷新率帧率码率带宽分辨率客户端技术广告追踪热补丁计算机网络前端安全开发工具/开发技术名词解释数据处理数据恢复一种是存储介质损坏导致的数据丢失,另一种就是数据从存储介质上删除。前者的话,比如硬盘碎了,数据是无法恢复的;后者的话,大部分文件系统是这样设计的,一部分是索引区,另一部分是数据区。当我们新加一个文件时,先往索引区里添加一条...

2019-08-24 20:59:18 3872

原创 Matplotlib

输入类型所有绘图函数都需要np.array或np.ma.masked_array对象作为输入类型。最好在绘图之前将它们转换为np.array对象。#转换dataframea = pandas.DataFrame(np.random.rand(4,5), columns = list('abcde'))a_asndarray = a.values#转换np.matrixb = np.m...

2019-07-13 17:11:01 291

转载 数据化运营案例

文章目录一、目标客户的特征分析二、目标客户的预测模型(响应、分类)三、目标群体的活跃度定义四、用户路径分析五、交叉销售模型六、信息质量模型七、用户分层模型八、卖家(买家)交易模型九、信用风险模型十、商品推荐模型一、目标客户的特征分析二、目标客户的预测模型(响应、分类)逻辑回归、决策树、神经网络、支持向量机等响应模型的核心就是响应概率。根据建模数据中实际响应比例的大小进行分类,响应模型还可以...

2019-06-27 21:20:04 1995

转载 数据化运营算法及应用

文章目录1.分类与预测1.1 回归1.2 决策树1.3 神经网络1.4 贝叶斯分类方法1.5 支持向量机SVM1.6 KNN算法2.聚类分析3.关联规则4. 其它4.1 主成分分析4.2 假设检验目标响应概率a).宏观上,可以理解为特定消费群体整体上的概率或可能性。比如,通过卡方检验发现某个特定类别群体在某个消费行为指标上具有显著性特征,这种显著性特征可以帮助我们进行目标市场的选择,寻找具有相...

2019-06-27 21:17:57 1025

转载 sklearn

文章目录数据预处理缺失值无量纲化标准化归一化正则化对比处理连续型变量:二值化与分段处理离散型变量:独热编码与哑变量生成多项式特征特征选择Filter过滤法方差选择法卡方检验/卡方过滤F检验互信息法总结Embedded嵌入法Wrapper包装法降维算法数据集拆分定义模型线性回归逻辑回归朴素贝叶斯算法决策树支持向量机SVMk近邻算法KNN多层感知机(神经网络)模型评估交叉验证检验曲线保存模型保存为pi...

2019-06-27 15:40:59 1842

翻译 git操作

1.git bash冒号如何退出?按Q退出2.# 首先配置用户信息$ git config --global user.name "John Doe"$ git config --global user.email johndoe@example.com# 列出当前所有配置$ git config --list#在现有目录中初始化仓库$ git init$ gi

2019-02-13 17:13:40 147

原创 自动邮件

练手1、python脚本连接hive并保存查询结果#!/usr/bin/env import subprocess#直接运行hql命令cmd = "hive -e 'set hive.exec.dynamic.partition=true;\ set hive.auto.convert.join=false;\ selec...

2019-01-26 15:14:25 1145

原创 样本类别不均衡的问题

样本类别数量不均衡主要出现在分类建模的情况。通常为某类别的样本数量较少,导致模型忽略了小样本的特征,由大样本主导。 面对样本数量不均的情况,常用的方法如下:抽样 常规的包含过抽样、欠抽样、组合抽样 过抽样:将样本较少的一类sample补齐 欠抽样:将样本较多的一类sample压缩 组合抽样:约定一个量级N,同时进行过抽样和欠抽样,使得正负样本量和等于约定量级N这种方法要么丢失...

2018-06-11 16:47:36 2115

原创 python subprocess模块

subprocess.runsubprocess.Popen补充:连续输入输出通过使用subprocess包,我们可以运行外部程序。这极大的拓展了Python的功能。如果你已经了解了操作系统的某些应用,你可以从Python中直接调用该应用(而不是完全依赖Python),并将应用的结果输出给Python,并让Python继续处理。shell的功能(比如利用文本流连接各个应用...

2018-05-22 16:51:56 544

原创 Hive 报错

1. 错误信息如下: org.apache.hive.service.cli.HiveSQLException: Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask at org.apache....

2018-05-05 15:54:19 2806

原创 hive基础及表操作

集合数据类型文本文件数据编码修改表表操作分区操作列操作Join语句Reduce side JoinMap side joinleft semi-join集合数据类型 数据类型 描述 语法示例 STRUCT 和C语言中的struct或”对象”类似,都可以通过”点”符号访问元素内容。如,某列’desc’的数据类型是stru...

2018-04-03 14:49:37 196

原创 hive函数

行拆列 explode explode(ARRAY) 列表中的每个元素生成一行 explode(MAP) map中每个key-value对,生成一行,key为一列,value为一列---word count例子select word,count(1) numfrom(select explode(array_x) wordfrom table_x) agroup by ...

2018-03-21 18:04:04 227

原创 python实例

1.生成200个优惠券激活码import randomimport stringresult=[]for i in range(200): ran_str = ''.join(random.sample(string.ascii_letters + string.digits, 15)) result.append(ran_str)print result2.

2018-01-18 16:16:51 2687

转载 解决linux的-bash: ./xx: Permission denied

在linux下执行sh文件时提示下面信息:-bash: ./xx.sh: Permission denied解决:chmod 777 xx.shLinux chmod +755和chmod +777 各是什么意思呢?755 代表用户对该文件拥有读,写,执行的权限,同组其他人员拥有执行和读的权限,没有写的权限,其他用户的权限和同组人员权限一样。 777代表,user,group ,others

2018-01-02 10:35:52 94370 3

转载 python doctest测试框架

官方介绍:doctest模块会搜索那些看起来像是python交互式会话中的代码片段,然后尝试执行并验证结果。例子:'''这个例子展示如何在源码中嵌入doctest用例。'>>>' 开头的行就是doctest测试用例。不带 '>>>' 的行就是测试用例的输出。如果实际运行的结果与期望的结果不一致,就标记为测试失败。'''def multiply(a, b): """ >>>

2017-12-29 14:42:24 304

原创 Linux GNU nano编辑器

^G Get Help ^O WriteOut ^R Read File ^Y Prev Page ^K Cut Text ^C Cur Pos ^X Exit ^J Justify ^W Where Is ^V Next Page ^U UnCut Txt ^T To Spell 这些是帮助栏目,^G表示ctrl+g一起按^G Get Help表示同时按ctrl和G,就是调出帮助菜单这里声明一下

2017-12-29 14:29:57 13293

原创 mysql索引

1、索引基础概念 “primary key” 表示该列是表的主键, 本列的值必须唯一, MySQL将自动索引该列。 对某一table,主键须唯一,但可以有多个索引。http://blog.csdn.net/qq_27093465/article/details/525936042、索引建立原则 a) 用于索引的最好的备选数据列是那些出现在WHERE子句、join子句、ORDER BY或GRO

2017-12-26 16:37:06 203

转载 python 正则匹配(零宽断言)

使用小括号的时候,还有很多特定用途的语法。下面列出了最常用的一些: 1.零宽断言有时候在使用正则表达式做匹配的时候,我们希望匹配一个字符串,这个字符串的前面或后面需要是特定的内容,但我们又不想要前面或后面的这个特定的内容,这时候就需要零宽断言的帮助了。所谓零宽断言,简单来说就是匹配一个位置,这个位置满足某个正则,但是不纳入匹配结果的,所以叫“零宽”,而且这个位置的前面或后面需要满足某种正则。比如对

2017-12-09 18:40:04 782

转载 静态语言、动态语言

一、 前两者,弱/强类型指的是语言类型系统的类型检查的严格程度。后两者指的是变量与类型的绑定方法。弱类型相对于强类型来说类型检查更不严格,比如说允许变量类型的隐式转换,允许强制类型转换等等。强类型语言一般不允许这么做。静态类型指的是编译器在compile time执行类型检查,动态类型指的是编译器(虚拟机)在runtime执行类型检查。简单地说,在声明了一个变量之后,不能改变它的类型的语言,是静态

2017-12-09 14:45:29 503

转载 python re模块

一、re模块匹配时贪婪和非贪婪模式正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;非贪婪则相反,总是尝试匹配尽可能少的字符。在”*”,”?”,”+”,”{m,n}”后面加上?,使贪婪变成非贪婪。即: .*具有贪婪的性质,首先匹配到不能匹配为止,根据后面的正则表达式,会进行回溯。 .*?则相反,一

2017-12-09 14:22:57 133

转载 python subprocess模块

一、subprocess以及常用的封装函数 subprocess包主要功能是执行外部的命令和程序。运行python的时候,我们都是在创建并运行一个进程。像Linux进程那样,一个进程可以fork一个子进程,并让这个子进程exec另外一个程序。在Python中,我们通过标准库中的subprocess包来fork一个子进程,并运行一个外部的程序。subprocess包中定义有数个创建子进程的函数,这些

2017-12-08 15:11:41 229

转载 Linux source命令

Linux source命令:通常用法:source filepath 或 . filepath功能:使当前shell读入路径为filepath的shell文件并依次执行文件中的所有语句,通常用于重新执行刚修改的初始化文件,使之立即生效,而不必注销并重新登录。例如,当我们修改了/etc/profile文件,并想让它立刻生效,而不用重新登录,就可以使用source命令,如source /etc/pro

2017-12-07 17:59:19 130

原创 Oozie

介绍在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。在Hadoop生态圈中,有一种相对比较新的组件叫做Oozie,它可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。Oozie实际上是服务于hadoop生态系统的工作流调度工具。Oozie工作流程定义是一个DAG(Directed Acyclical Gr

2017-11-27 18:19:56 488

原创 Hadoop、Hive等介绍

HueHadoopHive 数据仓库工具Hbase 分布式数据库Hue介绍Hue是一个可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口。作用1,访问HDFS和文件浏览 2,通过web调试和开发hive以及数据结果展示 3,查询solr和结果展示,报表生成 4,通过web调试和开发impala交互式SQL Query 5,spark调试和开发 6,P

2017-11-25 18:37:08 960

原创 编码类型及python中实现转换

类对象介绍类的创建类方法及类变量面向对象类、对象介绍类是一种抽象的类型,而对象是这种类型的实例。 一个类可以有属于它的函数,这种函数被称为类的“方法”。 一个类/对象可以有属于它的变量,这种变量被称作“域”。 域根据所属不同,又分别被称作“类变量”和“实例变量”。举个现实的例子: “笔”作为一个抽象的概念,可以被看成是一个类。而一支实实在在的

2017-11-23 10:57:34 251

转载 time模块

在Python中,通常有这几种方式来表示时间:1)时间戳 2)格式化的时间字符串 3)元组(struct_time)共九个元素。时间戳(timestamp): 通常来说,时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量。时间字符串 元组(struct_time) 元组方式共有9个元素。 转化关系

2017-11-20 15:28:27 238

转载 linux 替换

(一)通过vi编辑器来替换。 vi/vim 中可以使用 :s 命令来替换字符串。 :s/well/good/ 替换当前行第一个 well 为 good :s/well/good/g 替换当前行所有 well 为 good :n,s/well/good/替换第n行开始到最后一行中每一行的第一个well为good:n,s/well/good/ 替换第 n 行开始到最后一行中每一行的第一个 wel

2017-10-11 17:27:25 3437

转载 Linux 零散知识点

Linux输出重定向>和>>> 是定向输出到文件,如果文件不存在,就创建文件;如果文件存在,就将其清空;一般我们备份清理日志文件的时候,就是这种方法:先备份日志,再用>,将日志文件清空(文件大小变成0字节); >>是将输出内容追加到目标文件中。如果文件不存在,就创建文件;如果文件存在,则将新的内容追加到那个文件的末尾,该文件中的原有内容不受影响。Linux里的2>&1 在Linux下经常会碰到no

2017-09-08 10:44:28 190

转载 Vim

模式六种基本模式普通模式Normal mode插入模式Insert mode可视模式Visual mode选择模式Select mode命令行模式Command line modeEx模式Ex mode模式切换五种派生模式退出Vim删除文本文档编辑vim重复命令游标跳转行间跳转行内跳转复制粘贴剪切复制粘贴剪切粘贴查找替换字符的替换及撤销快速缩进查找高级

2017-09-07 10:41:12 252

转载 linux

常用快捷键常用命令ls命令更改用户权限目录结构及文件操作其它命令man详解文件类型shell常用通配符常用快捷键 按键 作用 Ctrl+c 终止进程 Ctrl+d 键盘输入结束或退出终端 Ctrl+s 暂停当前程序,暂停后按下任意键恢复运行 Ctrl+z 将当前程序放到后台运行,恢复到前台为命令fg Ctrl+a 将光标移至输入行头,相当

2017-08-31 14:49:54 482

转载 python-random模块

import random as rdrandom模块的常用函数 函数 用法 randint(a, b) 生成一个a到b间的随机整数,包括a和b random() 生成一个0到1之间的随机浮点数,包括0但不包括1,也就是[0.0, 1.0) uniform(a, b) 生成a、b之间的随机浮点数,a、b无需是整数,也不用考虑大小 choice(seq) 从序列中

2017-08-16 17:59:13 438

转载 正则表达式

字符串前面加r,是raw的意思,它表示对字符串不进行转义。 print “\bhi” hi print r”\bhi” \bhi 字符 含义及用法 ^ 匹配字符串的开始 $ 匹配字符串的结束 | 相当于or,它连接的两个表达式,只要满足其中之一,就会被算作匹配成功。 [] 匹配满足括号中任一字符 . 匹配除换行符以外的

2017-08-16 17:39:43 253

转载 python中and-or使用

一、and 在Python 中,and 和 or 执行布尔逻辑演算,但是它们并不返回布尔值;而是返回它们实际进行比较的值之一。如果布尔上下文中的所有值都为真,那么 and 返回最后一个值。 如果布尔上下文中的某个值为假,则 and 返回第一个假值。即返回最后一个真值或第一个假值二、or 使用 or 时,在布尔上下文中从左到右演算值,就像 and 一样。如果有一个值为真,or 立刻返回该值如果所

2017-08-16 16:13:26 12181

转载 pyhton 类-对象

类对象介绍类的创建类方法及类变量面向对象类、对象介绍类是一种抽象的类型,而对象是这种类型的实例。 一个类可以有属于它的函数,这种函数被称为类的“方法”。 一个类/对象可以有属于它的变量,这种变量被称作“域”。 域根据所属不同,又分别被称作“类变量”和“实例变量”。举个现实的例子: “笔”作为一个抽象的概念,可以被看成是一个类。而一支实实在在的笔,则是“笔”这种类型的对象 继续笔的例

2017-08-16 15:18:39 331 1

转载 python_时间处理

常用命令时间戳timestamp日期时间datetimestrftime日期date转换

2017-07-31 14:35:06 188

转载 pandas

pandas文件读写文件读取存入文件预处理创建dataframe简单处理分组及排序全组排序组内排序及标号筛选简单操作lambda函数筛选where筛选query筛选重复值处理切片 切片方法locilocatiat索引设置索引布尔索引多重索引pandas文件读写文件读取# !/us

2017-07-29 15:57:16 2061

转载 python_异常处理

1. try...except...我们把可能发生错误的语句放在try模块里,用except来处理异常。except可以处理一个专门的异常,也可以处理一组圆括号中的异常,如果except后没有指定异常,则默认处理所有的异常。每一个try,都必须至少有一个except。a=10b=0try: c = b/ a print cexcept (IOError ,Ze

2017-07-18 16:08:29 276

转载 文件读取、写入

一、文件读取f=file('路径','w')data=f.read()print dataf.close()1、file语句如不加'w',则默认只读模式。‘w’为写入模式,覆盖原内容。‘a’不覆盖原内容,而是添加进文件。      除file外,open也有类似的读取作用。2、python对文件提供三种读取方式:read、readline、readlines

2017-07-18 14:48:59 439

转载 数据类型&运算符

一. 数据类型1.整数类型  &  2.浮点数&定点数      M为精度:数据总长度     D为标度:小数点后长度   单精度:占4个字节,有效数位是7位   双精度:占8个字节,有效数位是16位   在一定情况下,浮点数能表示更大的存储范围,但容易产生误差。 因而对精度要求较高时,选择定点数。定点数以字符串储存。

2017-06-23 09:59:00 458

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除