数据分析
简之
这个作者很懒,什么都没留下…
展开
-
用户画像系统概述
1. 用户画像的概念1.1 什么是用户画像?用户画像是对现实世界中的用户的数学建模。1.2 用户标签画像用户标签画像是用标签标示方法来表示用户。标签是某一种用户特征的符号表示;用户画像是一个整体,各个维度不孤立,标签之间有联系;用户画像可以用标签的集合来表示。1.3 用户标签的数学描述:标签是特征空间中的维度。特征空间:每个标签都是特征空间中的基向量;基向量之间有关联...原创 2019-04-27 15:09:30 · 7399 阅读 · 1 评论 -
Pandas实现Hive中的窗口函数
1、Hive窗口函数我们先来介绍一下Hive中几个常见的窗口函数,row_number(),lag()和lead()。row_number()该函数的格式如下:row_Number() OVER (partition by 分组字段 ORDER BY 排序字段 排序方式asc/desc)简单的说,我们使用partition by后面的字段对数据进行分组,在每个组内,使用ORDER BY...转载 2019-04-26 12:52:57 · 2737 阅读 · 0 评论 -
数据库SQL性能优化总结
一、SQL语句优化1、对查询进行优化,要尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引;2、在 where 子句中对字段须避免以下操作,否则将导致引擎放弃使用索引而进行全表扫描;进行 null 值判断;使用 != 或 <> 操作符;使用 or 来连接条件,如果一个字段有索引,一个字段没有索引;in 和 not in 也要慎用;使用模...转载 2018-10-27 21:39:02 · 1419 阅读 · 0 评论 -
ORACLE中ROWNUM用法总结
ORACLE中ROWNUM用法总结对于 Oracle 的 rownum 问题,很多资料都说不支持>,>=,=,between…and,只能用以上符号(<、<=、!=),并非说用>,& gt;=,=,between…and 时会提示SQL语法错误,而是经常是查不出一条记录来,还会出现似乎是莫名其妙的结果来,其实您只要理解好了这个 rownum 伪列的意义就不应...转载 2018-10-15 17:37:48 · 854 阅读 · 0 评论 -
SQL语句的基本特性
SQL语法转载 2018-07-28 22:30:05 · 1471 阅读 · 0 评论 -
数据库中的索引技术——哈希索引
数据库中的索引技术——哈希索引1、哈希索引哈希索引(hash index)基于哈希表实现,只有精确匹配索引所有列的查询才有效。对于每一行数据,存储引擎都会对所有的索引列计算一个哈希码(hash code),哈希码是一个较小的值,并且不同键值的行计算出来的哈希码也不一样。哈希索引将所有的哈希码存储在索引中,同时在哈希表中保存指向每个数据行的指针。对于hash相同的,采用链表的方式解决...原创 2018-09-02 10:55:32 · 42733 阅读 · 5 评论 -
数据库中的索引技术——B+树
索引对于良好的性能非常关键。尤其是当表中的数据量越来越大时,索引对性能的影响愈发重要。在数据量较小且负载较低时,不恰当的索引对性能的影响可能还不明显,但当数据量逐渐增大时,性能则会急剧下降1。索引优化应该是对查询性能优化最有效的手段了。索引能够轻易将查询性能提高几个数量级,“最优”的索引有时比一个“好的”索引性能要好两个数量级。1 基本索引索引记录: 由一个搜索码值和指向具有该搜...转载 2018-09-02 10:19:59 · 3052 阅读 · 0 评论 -
MySQL数据文件的组织
MySQL数据文件的组织1 字段的表示 Name Address Gender Birthday Bob previlige M 19/06/1992 Mary malloand F 20/02/2003每个字段均被SQL定义成具体的数据类型,表示成一定长度的字节序列。 字段名 类型 长度...原创 2018-09-01 22:23:01 · 951 阅读 · 0 评论 -
SQL语句执行顺序详解
SQL语句执行顺序详解阅读目录数据准备SQL逻辑查询语句执行顺序执行FROM语句执行ON过滤添加外部行执行WHERE过滤执行GROUP BY分组执行HAVING过滤SELECT列表执行DISTINCT子句执行ORDER BY子句执行LIMIT子句SQL 不同于与其他编程语言的最明显特征是处理代码的顺序。在大数编程语言中,代码按编码顺序被处理,但是在SQL语...转载 2018-08-23 23:00:00 · 499 阅读 · 0 评论 -
爬虫之CSS选择器的使用(BeautifulSoup)
CSS选择器的使用(BeautifulSoup)1、CSS选择器概述BeautifulSoup支持大部分的CSS选择器。 语法为:向tag对象或BeautifulSoup对象的.select()方法中传入字符串参数,选择的结果以列表形式返回,即返回类型为list。tag.select(&amp;quot;string&amp;quot;)BeautifulSoup.select(&amp;quot;string&amp;quot原创 2018-08-19 15:23:35 · 7185 阅读 · 2 评论 -
爬虫之XPath语法
爬虫之XPath语法1、简介XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。 XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。2、XPath节点七种基本节点 元素、属性、文本命名空间、处理指令、注释以及根节点节点之间的关系 父、子、同胞(兄弟)、先辈、后代3、XPath语法3....原创 2018-08-19 15:27:00 · 503 阅读 · 0 评论