happy5205205-CSDN博客

原创 dataframe减少内存reduce_mem_usage

"""load data(reduce memory usage)https://www.kaggle.com/gemartin/load-data-reduce-memory-usage"""import pandas as pdimport numpy as npdef reduce_mem_usage(df): """ iterate through all the columns of a dataframe and modify the data type

2021-12-14 19:30:50 583

原创 GBDT总结

Gradient Boost是一个框架，里面可以套入很多不同的算法。GBDT是GB的一种情况，GBDT=Gradient Boost+Decision Tree 也就是梯度提升+决策树GB：梯度迭代 Gradient BoostingBoosting 是一种集成方法。通过对弱分类器的组合得到强分类器，他是串行的，几个弱分类器之间是依次训练的。GBDT 的核心就在于，每一颗树学习的是之前所有树结论和的残差。Gradient 体现在：无论前面一颗树的 cost function 是什么，是均方差还是均差，

2021-12-02 22:29:49 2031

原创 hive 语句对表的删除操作

-- 删除库drop database if exists db_name;-- 强制删除库drop database if exists db_name cascade;-- 删除表drop table if exists employee;-- 清空表truncate table employee;-- 清空表，第二种方式insert overwrite table employee select * from employee where 1=0; -- 删除分

2020-09-01 14:34:56 872

原创 python dataframe字符串与日期格式之间的相互转换

from datetime import datetimeimport panda as pddf = pd.DataFrame([['1','2020-08-16'],['2','2020-08-15']],columns=['a','b'])# 方法一直接使用pd.to_datetime函数实现df['c'] = pd.to_datetime(df['b'])# 方法二 strptime 字符串转成时间df['d']= df['b'].apply(lambda x: x.strptime

2020-08-16 16:33:25 15068

原创 python 字典合并或列表合并的多种和方法

https://www.cnblogs.com/chaihy/p/7243143.html

2020-08-13 23:21:03 504

原创将json转换成Dataframe，Dataframe某一列是字典转成DataFrame

import pandas as pddef score_data(x): try: return(pd.Series(json.loads(x)['data'])) except: return np.nan

2020-07-13 23:06:06 1493

转载 Hive修改表名，列名，列注释，表注释等操作

https://blog.csdn.net/helloxiaozhe/article/details/80749094

2020-06-12 10:21:44 1601

原创 python 字典与DataFrame之间的相互转换

# 字典转dataframef = {u'2012-06-08': 388, u'2012-06-09': 388, u'2012-06-10': 388, u'2012-06-11': 389, u'2012-06-12': 389, u'2012-06-13': 389,}fOut[12]: {'2012-06-08': 388, '2012-06-09': 388, '2012-06-10': 388, '2012-06-11': 389, '2012-06-12': 38

2020-05-14 19:11:36 1673

原创 Python中pandas dataframe删除一行或一列：drop函数

用法：DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False)参数说明：labels 就是要删除的行列的名字，用列表给定axis 默认为0，指删除行，因此删除columns时要指定axis=1；index 直接指定要删除的行columns 直接指定要删除的列inplace=False，默认该...

2020-03-26 19:25:40 4021

原创 Python将DataFrame的某一列作为index

df.set_index(['XXXX'], inplace=True)import pandas as pdcountry1 = pd.Series({'Name': '中国', 'Language': 'Chinese', 'Area': '9.597M km2', ...

2020-03-26 19:17:57 6771 1

原创 pandas 根据某一列排序（sort_values）

官方文档： https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sort_values.htmldf.sort_values(by="XXXX" , ascending=False) by 指定列 ascending#coding=utf-8import pandas as pdimport num...

2020-03-26 17:49:45 37601 1

原创 python修改Dataframe列名的两种方法

首先新建一个Dataframeimport pandas as pddf = pd.DataFrame({'a':[1,2,3],'b':[1,2,3]})如下： a b0 1 11 2 22 3 31、修改列名a，b为A、B。df.columns = ['A','B']2、只修改列名a为Adf.rename(columns={'a':'A'})...

2020-03-26 17:29:04 25908 2

转载 pandas - groupby, agg分组统计

# -*- coding: utf-8 -*-""" 数据聚合与分组技术, 利用Python进行数据分析1. groupby;"""import pandas as pdimport numpy as np np.random.seed(1) """ 1. groupby, 按键拆分, 重组, 求和 """df = pd.DataFrame({ "key...

2020-03-26 13:34:31 1041

原创 DataFrame 对每一行做 lambda 处理

import pandas as pdimport numpy as npdef ss(x): try: res = (x['score']/x['c']).max() return res except: return np.NANdef main(): df = pd.DataFrame([['A', 0, 4],...

2020-03-19 15:47:45 4352

原创 Pandas组内排序总结

import pandas as pddf = pd.DataFrame([['A',1],['A',3],['A',2],['B',5],['B',9]], columns = ['name','score'])总体而言有三种思路：先排序，后分组先排序，后分组这种方法，基于一个前提，即分组不会改变组内的相对顺序。这种方法，首先采用sort_values的方法，对整个df进行排序，然后...

2020-03-13 17:57:01 1325

原创 LeetCode两数之和

两数之和给定一个整数数组 nums 和一个目标值 target，请你在该数组中找出和为目标值的那两个整数，并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是，你不能重复利用这个数组中同样的元素。示例:给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]clas...

2020-03-03 23:11:04 120

原创 python卡方分箱自动化脚本

import sysimport numpy as npimport pandas as pdimport mathimport osfrom tqdm import tqdmpd.set_option('display.float_format', lambda x: '%.3f' % x)""" 1.自定义缺失值处理函数 1.1 缺失值计算"""def ...

2019-07-08 15:24:30 2527 7

转载 ROW_NUMBER() OVER()函数用法详解

https://blog.csdn.net/qq_25221835/article/details/82762416?tdsourcetag=s_pctim_aiomsgrow_number() OVER (PARTITION BY COL1 ORDER BY COL2) 表示根据COL1分组，在分组内部根据 COL2排序，而此函数计算的值就表示每组内部排序后的顺序编号（组内连续的唯一的)语法...

2019-05-05 22:48:49 2540

原创 SVM面试总结

1、概括 SVM是一种监督式的二分类模型，它通过寻找最大间隔分类平面wx+b=0将正负类样本进行区分，对于线性不可分情况，通过核技法将低维空间映射到高维空间，使其线性可分。 1、当训练样本线性可分时，通过硬间隔最大化，学习一个线性分类器，即线性可分支持向量机； 2、当训练数据近似线性可分时，引入松弛变量，通过软间隔最大化，学习一个线性分类器，即线性支持向量机； ...

2019-04-08 21:07:02 1093

原创决策树面试总结

1、概括顾名思义，决策树就是一棵树，一颗决策树包含一个根节点、若干个内部结点和若干个叶结点；叶结点对应于决策结果，其他每个结点则对应于一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集，从根结点到每个叶子结点的路径对应了一个判定测试序列。决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得各个子数据集有一个最好的分类...

2019-04-08 20:55:41 935

原创逻辑回归面试总结

1、概括虽然逻辑回归能够用于分类，不过其本质还是线性回归。它仅在线性回归的基础上，在特征到结果的映射中加入了一层sigmoid函数（非线性）映射，即先把特征线性求和，然后使用sigmoid函数来预测。逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法，运用梯度下降来求解参数，来达到将数据二分类的目的。逻辑回归：线性回归可以预测连续值，但是不能解决分类问题，我们需要根据预测的结果判...

2019-03-19 13:12:12 2155

转载 Oracle中over函数

转发 https://blog.csdn.net/a1065423444/article/details/75635611

2018-07-10 14:38:35 1139

原创自然语言处理中的词袋模型

词袋模型from sklearn.feature_extraction.text import CountVectorizerimport osimport reimport jieba.posseg as pseg# 加载停用词表stop_words_path = './stop_words/'stopwords1 = [line.rstrip() for line in ...

2018-07-05 17:42:21 556

原创 Python文本特征及分类

1、情感分析# 简单的例子import nltkfrom nltk.stem import WordNetLemmatizerfrom nltk.corpus import stopwordsfrom nltk.classify import NaiveBayesClassifiertext1 = 'I like the movie so much!'text2 = 'That ...

2018-07-05 17:24:29 2176

原创 Python自然语言处理

1、NLTK基本操作import nltknltk.download()import nltkfrom nltk.corpus import brown # 需要下载brown语料库# 引用布朗大学的语料库# 查看语料库包含的类别print(brown.categories())# 查看brown语料库print('共有{}个句子'.format(len(brown.sents...

2018-07-05 17:14:49 431

原创 Python文本数据处理

1、文本基本操作text1 = 'Python is a widely used high-level programming language for general-purpose programming, created by Guido van Rossum and first released in 1991.'# 字符个数print(len(text1))# 获取单词te...

2018-07-04 15:20:32 1976

原创 Pandas时间序列处理

1、创建from datetime import datetimeimport pandas as pdimport numpy as np# 指定index为datetime的listdate_list = [datetime(2018, 3, 3), datetime(2018, 3, 4), datetime(2018, 3, 10), dateti...

2018-07-04 10:38:50 1175

原创 Python的日期和时间处理

1、datetime模块from datetime import datetimenow = datetime.now()print(now)print(type(now))print('年: {}, 月: {}, 日: {}'.format(now.year, now.month, now.day))diff = datetime(2018, 3, 25, 17) - dateti...

2018-07-04 10:17:50 709

原创 TensorFlow识别手写数字

数据链接:https://pan.baidu.com/s/1ICxdODACssxtbf3hs_PT3w 密码:rsx3# 加载MNIST数据集from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets('MNIST_data', one_hot=True)# 查看...

2018-07-03 12:42:09 273

原创 TensorFlow入门

import tensorflow as tf计算模式–计算图a = tf.constant([1.0, 2.0], name='a')b = tf.constant([1.0, 2.0], name='b')result = a + bprint(result)# 如果没有特殊声明，a.graph返回其所属的计算图，即默认的计算图print(a.graph == tf.get_...

2018-07-03 12:29:58 282

原创人工神经网络

import numpy as npimport matplotlib.pyplot as pltimport pandas as pdimport seaborn as snsfrom sklearn.model_selection import train_test_splitANN建模import numpy as npimport matplotlib.pyplot as...

2018-07-03 12:23:26 347

原创 K-Means聚类及图像压缩

数据链接:https://pan.baidu.com/s/1cz8SihL2HYh_cFudc7y07Q 密码:tr35import numpy as npimport cv2import matplotlib.pyplot as plt original_img = cv2.imread('./images/ColorfulBird.jpg')print('图像维度：', orig...

2018-07-03 11:55:53 1430

原创 Python中常用的图像特征

数据链接:https://pan.baidu.com/s/1cz8SihL2HYh_cFudc7y07Q 密码:tr35import cv2import numpy as np1、颜色特征img_gray_data = cv2.imread('./images/messi.jpg', cv2.IMREAD_GRAYSCALE)hist, bins = np.histogram(im...

2018-07-03 11:51:56 1369

原创 Python图像数据基本概念及操作

数据链接:https://pan.baidu.com/s/1cz8SihL2HYh_cFudc7y07Q 密码:tr35 1、图像数据基本操作import cv2import matplotlib.pyplot as pltimport numpy as npfrom matplotlib import pyplot as plt# 随机生成500x500的多维数组random_i...

2018-07-03 11:26:57 455

原创机器学习之集成学习

数据链接:https://pan.baidu.com/s/1yW6gye5rJQ-Rn_iKlKUm1g 密码:ejkiimport numpy as npimport matplotlib.pyplot as pltimport pandas as pdimport seaborn as snsfrom sklearn.model_selection import train_tes...

2018-07-02 15:50:23 378

原创 Python机器学习之交叉验证

import numpy as npimport matplotlib.pyplot as pltimport pandas as pdimport seaborn as snsfrom sklearn.model_selection import train_test_split1、数据加载# 加载数据集fruits_df = pd.read_table('fruit_dat...

2018-07-02 15:28:11 1586 2

原创 Python机器学习之特征工程

数据链接:https://pan.baidu.com/s/1yW6gye5rJQ-Rn_iKlKUm1g 密码:ejkiimport numpy as npimport matplotlib.pyplot as pltimport pandas as pdimport seaborn as snsfrom sklearn.model_selection import train_tes...

2018-07-02 15:16:04 740

原创机器学习常用算法

1、kNNimport numpy as npimport matplotlib.pyplot as pltimport pandas as pdimport seaborn as snsfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scorefr...

2018-07-02 15:02:55 276

空空如也

空空如也