albh81462-CSDN博客

转载 numpy 学习第2篇：ndarray 基础操作

numpy模块内置的函数能够对数组进行复杂而高效的操作，这些函数中都有一个参数axis（轴）。在数组中，轴表示维度，对于二维数组，axis参数的取值通常有：当axis为None，表示把数组展开为一维数组；当axis为0时，表示按照列（第一维）进行计算；当axis=1时，表示按照行（第二维）进行计算。一，排序sortsort(axis,kind)函数用于对数组进...

2019-09-27 18:10:00 733

转载 pandas 学习第11篇：DataFrame-数据处理（分组、聚合、窗口、相关、统计）

数据处理的目的是为了数据分析，下面分享常用的数据分析中会用到的函数。一，分组和聚合groupby用于对数据分组，分组之后可以直接调用聚合函数求值；agg()函数把分组和调用聚合函数集成到一个函数来实现：DataFrame.groupby(self, by=None, axis=0, level=None, as_index=True, sort=True, group_...

2019-09-27 17:15:00 1504

转载 SQL Server 内存优化表的索引设计

测试的版本：SQL Server 2017内存优化表上可以创建哈希索引（Hash Index）和内存优化非聚集（NONCLUSTERED）索引，这两种类型的索引也是内存优化的，称作内存优化索引，和基于硬盘的传统索引有很大的区别：索引结构存储在内存中，没有索引碎片和填充因子对索引所作的更新不会写入事务日志文件，这导致索引的更新操作性能非常高一，创建内存优化索引在...

2019-09-27 12:50:00 780

转载 pandas 学习第10篇：DataFrame 数据处理（应用、追加、截断、连接、合并、重复值、重索引、重命名、重置索引、设置轴索引、选择和过滤）...

DataFrame的这些操作和Series很相似，这里简单介绍一下。一，应用apply()函数应用于轴级别，applymap应用于元素级别：DataFrame.apply(self, func, axis=0, raw=False, result_type=None, args=(), **kwds)DataFrame.applymap(self, func)...

2019-09-26 18:47:00 1371

转载 pandas 学习第9篇：DataFrame 数据处理（操作列、类型转换、缺失值、排序、长宽格式、透视表）...

对数据框中的数据进行处理，使数据格式满足业务需求。一，增加列或删除列向数据框中增加新列或删除列，各有两种方法。1，简单方法通过为一个新列赋值来向数据框中增加新列，新列始终处于列的末尾：>>> df['new']='a'通过del 命令来删除数据框中的列：>>> del df['new']2，插入新列...

2019-09-26 18:15:00 1452

转载 pandas 学习第6篇：索引

索引是DataFrame和Series的行标签，并且可以有一个或多个索引。如果DataFrame和Series有一个索引，称作单级别索引；如果有多个索引，称作多级别索引。索引类似于DataFrame和Sereis的一列数据，可以有多种数据类型。索引的类型有：整数索引（Numeric Index）、分类索引（Category Index）、日期时间索引（DateTime Index、Tim...

2019-09-26 10:11:00 273

转载 pandas 学习第5篇：序列的处理（重复值、重索引、选择、截断、取样）

对序列进行数据数据，一，删除序列中的重复值当序列中存在重复值时，可以删除重复值，使序列中的值是唯一的：Series.drop_duplicates(self, keep='first', inplace=False)参数keep：有效值是first（保留第一个，删除后面出现的重复值），last（保留最后一个，删除前面出现的重复值），false（不保留，把重复的数据...

2019-09-25 11:13:00 1539

转载 pandas 学习第4篇：序列的处理（应用、聚合、转换、映射、分组、滚动、扩展、指数加权移动平均）...

序列内置一些函数，用于循环对序列的元素执行操作。一，应用函数对序列的各个原始应用函数：Series.apply(self, func, convert_dtype=True, args=(), **kwds)参数注释：func：应用的函数，可以是自定义的函数，或NumPy函数convert_dtype：默认值是True，尝试把func应用的结果转换为更...

2019-09-24 10:59:00 465

转载 pandas 学习第3篇：序列的处理（排序、连接、替换、更新和缺失值）

对序列进行处理，包括对序列进行排序、追加一个序列、对序列值进行替换、对序列的值进行更新，并处理序列中出现的缺失值。一，序列的排序按照值或索引对序列进行排序：Series.sort_values(self, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last')Serie...

2019-09-23 10:19:00 815

转载 pandas 学习第2篇：序列 - Series

序列(Series)是一维的，由一组有序的数据以及与之相关的索引组成，能够保存任何类型的数据（整数，字符串，浮点数，Python对象等）的一维数组。轴标签和下标统称为索引，可以通过索引来访问Series对象中的元素。一，创建序列序列的构造函数定义是：pandas.Series(data=None, index=None, dtype=None, name=None, co...

2019-09-20 10:39:00 600

转载 pandas 学习第1篇：pandas基础

pandas是基于NumPy构建的模块，含有使数据分析更快更简单的操作工具和数据结构，包含序列Series和数据框DataFrame两种最主要数据结构，Index也是pandas中非常重要的数据结构。一，数据结构数据框（DataFrame）类似于二维的关系表，每列的数据类型是相同的，列与列的数据类型可以不同，也可以相同。数据框的结构是行和列，列有列名，行有行索引，行索引还可以设置...

2019-09-19 11:07:00 192

转载 Python 学习第17篇：json

Python中的json对象实际是一个字典结构，用于存储和交换信息，导入json模块：import json1，把字符串转换为jsonjson的load()方法用于把josn格式的字符串转换为json对象，这实际上是一个字典结构：json_string= '{ "name":"John", "age":30, "city":"New York"}'# ...

2019-09-18 11:22:00 127

转载 DAX 第九篇：文本函数

DAX中用于处理文本的函数，和其他语言很相似。一，文本连接文本连接也可以使用操作符 & 来实现，也可以使用函数CONCATENATE来实现：CONCATENATE(<text1>, <text2>) 把整个表中的所有行，使用分隔符拼接为一个字符串，返回值是一个字符串，不常用：CONCATENATEX(<table&gt...

2019-09-11 11:08:00 1991

转载 DAX 第八篇：表连接

表连接是指两张表根据关联字段，组合成一个数据集。表连接不仅可以利用数据模型中已有的关系，而且可以利用DAX表达式基于表的任意列定义连接条件。因此，在DAX中，实现表与表之间的连接，有两种方式：第一种方式：利用数据模型中的现有关系，以便查询包含在不同表中的数据。第二种方式：编写 DAX 表达式创建连接，以生成与关系等效的效果。一，利用数据模型中的关系（左外连接）利用...

2019-09-10 15:57:00 1173

转载 DAX 第七篇：分组聚合

DAX有三个用于生成分组聚合数据的函数，这三个函数有两个共同的特征：分组列和扩展列。分组列是用于分组的列，只能来源于基础表中已存的列，分组列可以来源于同一个表，也可以来源于相关的列。扩展列是由name和expression对构成的，name是字符串，expression是包含聚合函数的表达式。在分组列和扩展列上，这三个函数有各自独特的处理方式。一，SUMMARIZ...

2019-09-09 16:45:00 1979

转载性能调优12：阻塞

阻塞就是常说的等待，是指事务A等待特定的资源得到满足之后，才能继续执行下去。发生阻塞的另外一种情况是被其他事务阻塞。阻塞对性能的影响，有时会比死锁更严重，这是因为死锁持续的时间非常短，SQL Server 一旦探测到死锁的发生，就会立即杀死一个进程，以结束死锁，使其他进程能够正常运行下去。然而，阻塞不会被杀死，可以持续很长很长时间，这就使得被阻塞的进程即使瞬间就可以完成，也必须等待资源得...

2019-08-20 07:27:00 150

转载并发、事务和锁

并发，在操作系统中，是指一个很短的时间段中有几个程序都处于已启动运行到运行完毕之间，并发程序之间有相互制约关系，直接制约体现为一个程序需要另一个程序的计算结果，间接制约体现为多个程序竞争同一资源，如处理机、缓冲区、数据等。在数据库系统中，并发主要是指资源的争用，当两个进程同时在访问或更新同一个数据时，产生资源的争用，资源争用会引起一系列的问题，比如数据不一致、查询阻塞、死锁等。一，...

2019-08-19 11:29:00 253

转载性能调优11：查询统计

数据库引擎的工作流程可以归纳为接收请求、执行请求和返回结果。数据库引擎每接收到一个新的查询请求（Query Request），查询优化器就会执行以下工作流程：编译请求：对TSQL语句进行语法解析，编译请求，生成TSQL语句表示的逻辑结构。查询优化：根据TSQL语句的逻辑结构，生成多个预估的执行方案，并根据统计信息，评估每个预估方案的开销，选择开销最低的方案作为最优方案。执...

2019-08-16 16:51:00 156

转载 Windows 任务调度程序定时执行Python脚本

Windows 任务调度程序（Task Scheduler）可以定时执行程序，本文分享使用Task Scheduler定时执行Python脚本的两种方法。在控制面版->管理员工具中打开Task Scheduler ：在Task Scheduler Library中创建一个新的文件夹demo，右击，点击“Create Basic Task”，打开创建任务向导：s...

2019-08-08 17:33:00 807

转载 sklearn 学习第三篇：knn分类

K临近分类是一种监督式的分类方法，首先根据已标记的数据对模型进行训练，然后根据模型对新的数据点进行预测，预测新数据点的标签（label），也就是该数据所属的分类。一，kNN算法的逻辑kNN算法的核心思想是：如果一个数据在特征空间中最相邻的k个数据中的大多数属于某一个类别，则该样本也属于这个类别（类似投票），并具有这个类别上样本的特性。通俗地说，对于给定的测试样本和基于某种度量距离...

2019-07-31 09:40:00 1019

转载 sklearn 学习第二篇：特征预处理

sklearn.preprocessing包提供了几个常用的转换函数，用于把原始特征向量转换为更适合估计器的表示。转化器(Transformer)用于对数据的处理，例如标准化、降维以及特征选择等，提供的函数大致是：fit(x,y):该方法接受输入和标签，计算出数据变换的方式。transform(x):根据已经计算出的变换方式，返回对输入数据x变换后的结果（不改变x）f...

2019-07-30 15:55:00 178

转载 sklearn 学习第一篇：分类

分类属于监督学习算法，是指根据已有的数据和标签（分类）进行学习，预测未知数据的标签。分类问题的目标是预测数据的类别标签（class label），可以把分类问题划分为二分类和多分类问题。二分类是指在两个类别中选择一个类别，在二分类问题中，其中一个类别称作正类（positive class），另一个类别称作反类（negative class），比如判断垃圾邮件。多分类问题是指从多个分类中选...

2019-07-28 22:23:00 655

转载 DAX 第六篇：统计函数（描述性统计）

统计函数用于创建聚合，对数据进行统计分析。在使用统计函数时，必须考虑到数据模型，表之间关系，数据重复等因素，一般都会搭配过滤函数实现数据的提取和分析。统计量一般是：均值、求和、计数、最大值、最小值、求中位数、求分位数、方差和标准差等。一，求均值均值分为几何均值和算术均值，几何平均数是n个变量值连乘积的n次方根：常用下面两个函数计算列值的算术平均值，AVERAGE函数用...

2019-07-25 12:01:00 1333

转载 DAX 第四篇：CALCULATE详解

CALCULATE()函数是DAX中最复杂的函数，用于计算由指定过滤器修改的上下文中的表达式。CALCULATE(<expression>,<filter1>,<filter2>…) 第一个参数是用于计算聚合值的度量，后面的参数是可选的过滤器，共有两种类型：返回布尔值的逻辑表达式返回表值的表达式CALCULATE函...

2019-07-23 13:20:00 1637

转载 DAX 第三篇：过滤器函数

过滤器函数允许你操纵筛选上下文以创建动态的计算，是DAX中最复杂和最强大的一类函数，本文记录我对一些常见的过滤器函数的总结。一，筛选上下文的构成DAX中的筛选上下文由三部分构成：交叉过滤构成的过滤，查询上下文中每行的列值构成的过滤，外部切片器构成的显式过滤。1，交叉过滤器在数据模型中创建关系，指定交叉过滤器2，查询上下文在当前查询的上下文中，每行的列值也会作...

2019-07-23 11:03:00 1069

转载 DAX 第二篇：计算上下文

计算上下文是计算公式的环境，任何DAX表达式都是在上下文中求值的。行上下文和筛选上下文是DAX中仅有的上下文类型，把这两种上下文称为计算上下文。计算上下文用于限定公式计算的环境，当上下文变化时，相同的公式会计算出不同的结果。一，计算上下文在PowerBI中创建的计算列是在行上下文中执行计算，创建的度量（meassure)是在筛选上下文中执行计算。行上下文是一个总是包含一行...

2019-07-19 13:30:00 574

转载 DAX 第一篇：数据模型

DAX是一种专门用于计算数据模型的业务公式的语言，本文以Power BI的关系来学习数据模型。一，理解数据模型数据模型是由一组表和关系构成的结构，表和表之间由关系链接，如下图所示的产品数据模型：表格是组织数据的二维结构，由行和列构成，其本身是一个最简单的数据模型。当要描述更复杂的数据模型时，就需要使用多张表。在具有多个表的数据模型中，表和表之间的数据具有关联性，通过关系把...

2019-07-18 10:21:00 215

转载 Git基本操作

Git的基本操作主要是增加内容，提交修改，还可以查看Git的状态和差异，以及文件的删除和移动。使用 git add 命令把文件的内容写入暂存区，而执行 git commit 将暂存区内容添加到版本库中。1，增加内容git add 命令用于增加Git追踪的内容，把内容加入到版本库的索引当中 git add file1 file2应该建立一个清晰的概念就是，gi...

2019-07-17 13:47:00 91

转载 Python 学习第16篇：数据类型（字典）

字典是键/值对构成的集合，字典通过大括号来创建，字典的键是字符串，而值可以是任何数据对象。字典有两个重要的特征：字典是无序的，字典项没有特定的顺序，只能通过键来获取值；字典是可变的，支持原处修改键的值；字典是作为散列表来实现的，可增长，搜索非常快速；和列表一样，字典存储的是对象的引用，不是拷贝。创建字典创建空的字典：>>> d...

2019-07-15 10:47:00 104

转载正则表达式第四篇：贪婪和消耗字符

转载：Python正则表达式之三：贪婪默认情况下，正则表达式进行贪婪匹配。所谓“贪婪”，是指当匹配到多种长度的字符串时，选择最长的；而非贪婪，就是在匹配多种长度的字符串时，选择最短的。默认情况下，正则表达在匹配字符时，会把字符消耗掉；可以使用环视结构来匹配位置，使得正则不消耗字符，即正则在匹配文本时，不消耗字符，只匹配位置。一，贪婪特性贪婪是正则表达式的默认属性，如下的几...

2019-07-11 19:02:00 188

转载 spaCy 第三篇：依存分析

句法是指句子的各个组成部分的相互关系，句法分析分为句法结构分析（syntactic structure parsing）和依存关系分析(dependency parsing)。句法结构分析用于获取整个句子的句法结构，依存分析用于获取词汇之间的依存关系，目前的句法分析已经从句法结构分析转向依存句法分析。依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构，主张句子中核心动词是支配...

2019-07-05 13:12:00 2688

转载 Python 学习第15篇：日期和时间

datetime模块中包含五种基本类型：date、time、datetime、timedelta和tzinfo，tz是time zone的缩写，tzinfo用于表示时区信息。一，date类型date类型表示日期，是由year、month和day构成的对象1，初始化date对象使用date(year,month,day)函数来初始化date对象：from datet...

2019-06-27 11:05:00 135

转载 Pandas 学习第7篇：数据输入输出

常用的数据存储介质是数据库和csv文件，pandas模块包含了相应的API对数据进行输入和输出：对于格式化的平面文件：read_table()对于csv文件：read_csv()、to_csv()对于SQL查询：read_sql、to_sql()一，平面文件把按照界定符分割的格式化文件读取到DataFrame中，使用read_table()函数来实现：...

2019-06-21 19:25:00 144

转载 Python 学习第18篇：使用pymssql操作SQL Server数据库

使用pymssql模块操作SQL Server数据库一，连接数据库使用pymssql连接SQL Server数据库，首先创建连接和游标：import pymssqlconn = pymssql.connect(host='host',user='user',password='pwd',database='db_name')cursor = conn.curs...

2019-06-04 13:54:00 2909

转载 Neo4j 第十二篇：使用Python驱动访问Neo4j

neo4j官方驱动支持Python语言，驱动程序主要包含Driver类型和Session类型。Driver对象包含Neo4j数据库的详细信息，包括主机url、安全验证等配置，还管理着连接池（Connection Pool）；Session对象是执行事务单元的逻辑上下文，事务是在Session的上下文中执行的。由于Session不是线程安全的，并能够从Driver对象管理的连接池中回收利用...

2019-06-03 10:30:00 919

转载 Neo4j 第十一篇：Cypher函数

Cypher函数是对图进行查询和操作的重要工具。一，谓词函数谓词函数返回true或者false，主要用于检查是否存在或满足特定的条件。1，Exists如果指定的模式存在于图中，或者特定的属性存在于节点、关系或Map中，那么函数返回True例如，节点具有name属性，并check图中是否存在特定的模式：MATCH (n)WHERE exists(n.nam...

2019-05-31 12:48:00 797

转载 Neo4j 第十篇：更新数据

更新图包括图的节点和关系的创建、更新和删除，也能更新图的节点和关系的属性、节点标签和关系类型。一，创建节点1，创建空的节点CREATE (n)CREATE (a),(b)2，创建带标签的节点CREATE (n:Person)CREATE (n:Person:Swedish)3，创建带标签和属性的节点CREATE (n:Person ...

2019-05-30 13:18:00 461

转载正则表达式第三篇：分组和捕获

分组是用圆括号“()”括起来的正则表达式，匹配出的内容就表示一个分组。分组有一个例外的情况，分组也可以不使用圆括号，而是使用 | 元字符来表示分组，| 的两侧是两个分组，例如， exp1 | exp2 表示两个分组，在严格意义闪给，不认为由 | 构成的正则表达式是分组。分组和捕获在正则表达式中有着密切的联系，一般情况下，分组即捕获，都用小括号完成：(exp) ：分...

2019-05-29 09:02:00 150

转载 Neo4j 第九篇：查询数据（Match）

Cypher使用match子句查询数据，是Cypher最基本的查询子句。在查询数据时，使用Match子句指定搜索的模式，这是从Neo4j数据库查询数据的最主要的方法。match子句之后通常会跟着where子句，向模式中添加过滤性的谓词，用于对数据进行过滤。在查询数据时，查询语句分为多个部分，with子句用于对上一个查询部分的结果进行处理，以输出到下一个查询部分。一，节点查询对节点...

2019-05-28 10:22:00 787

转载 Neo4j 第八篇：投射和过滤

投射子句用于定义如何返回数据集，并可以对返回的表达式设置别名，而过滤子句用于对查询的结果集按照条件进行过滤一，Return子句使用return子句返回节点，关系和关系。1，返回节点MATCH (n { name: 'B' })RETURN n2，返回关系MATCH (n { name: 'A' })-[r:KNOWS]->(c)RETUR...

2019-05-27 12:22:00 524

空空如也

空空如也