![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据处理&分析
文章平均质量分 63
Eureka丶
hello world、
展开
-
Python实现字符串模糊匹配
Python的difflib库中get_close_matches方法,包含四个参数:· x:被匹配的字符串。· words:去匹配的字符串列表。· n,前topn个最佳匹配返回,默认为3。· cutoff:匹配度大小,为[0, 1]浮点数,默认数值0.6。import diffliblist1 = ['ape', 'apple', 'peach', 'puppy']difflib.get_close_matches('appel', list1)import keyw原创 2021-12-09 10:02:44 · 18707 阅读 · 0 评论 -
时间序列分析——ARIMA模型预测餐厅销量
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = "all"from matplotlib.pylab import style # 自定.原创 2021-12-07 17:58:19 · 3677 阅读 · 12 评论 -
Pandas冷门但很有用的一些函数
1、items()方法items()方法可以用来遍历数据集当中的每一列,同时返回列名以及每一列当中的内容,通过以元组的形式,示例如下df = pd.DataFrame({'species': ['bear', 'bear', 'marsupial'], 'population': [1864, 22000, 80000]}, index=['panda', 'polar', 'koala'])dffor lab原创 2021-11-23 17:09:07 · 1106 阅读 · 1 评论 -
Python列表10个常用操作
1、迭代列表时如何访问列表下标索引普通版:List = [8, 23, 45]for index in range(len(List)): print(index, '-->', List[index])优雅版:for index, item in enumerate(List): print(index, '-->', item)enumerate 还可以指定元素的第一个元素从几开始,默认是0,也可以指定从1开始:for index, .原创 2021-11-03 14:47:20 · 288 阅读 · 0 评论 -
SQL多表联合查询时采用字段模糊匹配
先说一下背景和要求:背景:由于业务或是其他不描述的原因的问题导致原有存储的数据发生变动,与现有数据有差别,但还是能勉强看明白数据内容。要求:实现A表的名称字段和B表的名称字段要模糊匹配。上图:假如A表长这样:B表长这样:然后我要想变成这样:简单说就是在我关联查询两表时,条件字段的取值看起来不一样,但是意思是一样的,应该要把这种数据关联起来。但是SQL里面“=”两边又必须严格相同,所以现在怎么办呢?方法一:可以采用类似于LIKE模糊查询的办法。MySQL:原创 2021-10-29 20:21:54 · 12921 阅读 · 1 评论 -
机器学习——特征工程详解
目录1 特征工程是什么?2 数据预处理2.1 无量纲化2.1.1 标准化2.1.2 区间缩放法2.1.3 标准化与归一化的区别2.2 对定量特征二值化2.3 对定性特征哑编码2.4 缺失值计算2.5 数据变换3 特征选择3.1 Filter3.1.1 方差选择法3.1.2 相关系数法3.1.3 卡方检验3.1.4 互信息法3.2 Wrapper3.2.1 递归特征消除法3.3 Embedded3.3.1 基于惩罚项的特..原创 2021-10-25 23:33:34 · 1482 阅读 · 0 评论 -
SQL常用语句总结整理
1、创建数据库CREATE DATABASE 库名2、删除数据库DROP DATABASE 库名3、创建新表CREATE TABLE 表名(列名1 数据类型1 [not null] [primary key],列名2 数据类型2 [not null],..)4、根据已有表创建表CREATE TABLE 表名 ASSELECT 列名1,列名2,···FROM 旧表5、删除新表DROP TABLE 表名6、增加一列ALTER TABLE 表原创 2021-10-19 00:46:47 · 7165 阅读 · 0 评论 -
数据分析——统计学理论和方法
1、描述统计描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。集中趋势分析集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如被试的平均成绩多少?是正偏分布还是负偏分布?离中趋势分析离中趋势分析主要靠全距、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势。例如,我们想知道两个教学班的语原创 2021-10-12 14:37:20 · 1916 阅读 · 0 评论 -
Pandas数据预处理常用函数
import pandas as pdimport numpy as npdf = pd.DataFrame({'姓名': ['宇智波带土', '波风水门', '野原琳', '旗木卡卡西', '宇智波斑', '波风水门', '旗木卡卡西'], '性别': ['男', '男', '女', '男', '男', '男', '男'], '年龄': ['20', '26', '18', '21', '89', '26', '21'],.原创 2021-10-09 16:24:01 · 328 阅读 · 0 评论 -
Pandas数据探索常用函数
这是一个学生各季度成绩总表(节选),各列说明如下。 name:学生的姓名,这列没有重复值,一个学生一行,即一条数据,共100条。 team:所在的团队、班级,这个数据会重复。 Q1~Q4:各个季度的成绩,可能会有重复值。 import pandas as pddf = pd.read_excel('./team.xlsx')dfdf.head() # 查看前5条,括号里可以写明你想看的条数df.tail() # 查看尾部5条df.samp..原创 2021-10-09 15:13:13 · 696 阅读 · 0 评论 -
Pandas数据清洗常用函数
构造一个数据集,便于演示这些函数。import pandas as pddf = {'姓名': ['漩涡鸣人', '宇智波佐助', '旗木卡卡西', '春野樱', '宇智波鼬'], '性别': ['男', '男', 'men', 'women', '男'], '身份证': ['463895200003128433', '429475199912122345', '420934199110102311', '431085200005230122', '4209531995090原创 2021-10-08 16:55:03 · 804 阅读 · 0 评论 -
提取两个向量对应坐标不同时为零的坐标
import numpy as npA = np.array([1,3,0,0,5])B = np.array([2,0,0,4,3])nzA = A!=0nzB = B!=0nzAB = nzA | nzBnA = A[nzAB]nB = B[nzAB]nAnB原创 2021-10-08 12:41:14 · 88 阅读 · 0 评论