自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 收藏
  • 关注

原创 XGBoost总结

XGBoost总结

2022-12-23 17:52:58 614 1

原创 随机森林Random Forest面试问题汇总

随机森林面试总结

2022-12-23 16:00:31 1275

原创 dataframe减少内存reduce_mem_usage

"""load data(reduce memory usage)https://www.kaggle.com/gemartin/load-data-reduce-memory-usage"""import pandas as pdimport numpy as npdef reduce_mem_usage(df): """ iterate through all the columns of a dataframe and modify the data type

2021-12-14 19:30:50 429

原创 GBDT总结

Gradient Boost是一个框架,里面可以套入很多不同的算法。GBDT是GB的一种情况,GBDT=Gradient Boost+Decision Tree 也就是梯度提升+决策树GB:梯度迭代 Gradient BoostingBoosting 是一种集成方法。通过对弱分类器的组合得到强分类器,他是串行的,几个弱分类器之间是依次训练的。GBDT 的核心就在于,每一颗树学习的是之前所有树结论和的残差。Gradient 体现在:无论前面一颗树的 cost function 是什么,是均方差还是均差,

2021-12-02 22:29:49 1839

原创 hive 语句 对表的删除操作

-- 删除库drop database if exists db_name;-- 强制删除库drop database if exists db_name cascade;-- 删除表drop table if exists employee;-- 清空表truncate table employee;-- 清空表,第二种方式insert overwrite table employee select * from employee where 1=0; -- 删除分

2020-09-01 14:34:56 688

原创 python dataframe字符串与日期格式之间的相互转换

from datetime import datetimeimport panda as pddf = pd.DataFrame([['1','2020-08-16'],['2','2020-08-15']],columns=['a','b'])# 方法一 直接使用pd.to_datetime函数实现df['c'] = pd.to_datetime(df['b'])# 方法二 strptime 字符串转成时间df['d']= df['b'].apply(lambda x: x.strptime

2020-08-16 16:33:25 14310

原创 python 字典合并或列表合并的多种和方法

https://www.cnblogs.com/chaihy/p/7243143.html

2020-08-13 23:21:03 419

原创 将json转换成Dataframe,Dataframe某一列是字典转成DataFrame

import pandas as pddef score_data(x): try: return(pd.Series(json.loads(x)['data'])) except: return np.nan

2020-07-13 23:06:06 1355

转载 Hive修改表名,列名,列注释,表注释等操作

https://blog.csdn.net/helloxiaozhe/article/details/80749094

2020-06-12 10:21:44 1465

原创 python 字典与DataFrame之间的相互转换

# 字典转dataframef = {u'2012-06-08': 388, u'2012-06-09': 388, u'2012-06-10': 388, u'2012-06-11': 389, u'2012-06-12': 389, u'2012-06-13': 389,}fOut[12]: {'2012-06-08': 388, '2012-06-09': 388, '2012-06-10': 388, '2012-06-11': 389, '2012-06-12': 38

2020-05-14 19:11:36 1496

原创 Python中pandas dataframe删除一行或一列:drop函数

用法:DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False)参数说明:labels 就是要删除的行列的名字,用列表给定axis 默认为0,指删除行,因此删除columns时要指定axis=1;index 直接指定要删除的行columns 直接指定要删除的列inplace=False,默认该...

2020-03-26 19:25:40 3858

原创 Python将DataFrame的某一列作为index

df.set_index(['XXXX'], inplace=True)import pandas as pdcountry1 = pd.Series({'Name': '中国', 'Language': 'Chinese', 'Area': '9.597M km2', ...

2020-03-26 19:17:57 6515 1

原创 pandas 根据某一列排序(sort_values)

官方文档: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sort_values.htmldf.sort_values(by="XXXX" , ascending=False) by 指定列 ascending#coding=utf-8import pandas as pdimport num...

2020-03-26 17:49:45 37039 1

原创 python修改Dataframe列名的两种方法

首先新建一个Dataframeimport pandas as pddf = pd.DataFrame({'a':[1,2,3],'b':[1,2,3]})如下: a b0 1 11 2 22 3 31、修改列名a,b为A、B。df.columns = ['A','B']2、只修改列名a为Adf.rename(columns={'a':'A'})...

2020-03-26 17:29:04 25761 2

转载 pandas - groupby, agg分组统计

# -*- coding: utf-8 -*-""" 数据聚合与分组技术, 利用Python进行数据分析1. groupby;"""import pandas as pdimport numpy as np np.random.seed(1) """ 1. groupby, 按键拆分, 重组, 求和 """df = pd.DataFrame({ "key...

2020-03-26 13:34:31 965

原创 DataFrame 对每一行做 lambda 处理

import pandas as pdimport numpy as npdef ss(x): try: res = (x['score']/x['c']).max() return res except: return np.NANdef main(): df = pd.DataFrame([['A', 0, 4],...

2020-03-19 15:47:45 4161

原创 Pandas组内排序总结

import pandas as pddf = pd.DataFrame([['A',1],['A',3],['A',2],['B',5],['B',9]], columns = ['name','score'])总体而言有三种思路:先排序,后分组先排序,后分组这种方法,基于一个前提,即分组不会改变组内的相对顺序。这种方法,首先采用sort_values的方法,对整个df进行排序,然后...

2020-03-13 17:57:01 1187

原创 LeetCode两数之和

两数之和给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。示例:给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]clas...

2020-03-03 23:11:04 67

原创 python卡方分箱自动化脚本

import sysimport numpy as npimport pandas as pdimport mathimport osfrom tqdm import tqdmpd.set_option('display.float_format', lambda x: '%.3f' % x)""" 1.自定义缺失值处理函数 1.1 缺失值计算"""def ...

2019-07-08 15:24:30 2345 7

转载 ROW_NUMBER() OVER()函数用法详解

https://blog.csdn.net/qq_25221835/article/details/82762416?tdsourcetag=s_pctim_aiomsgrow_number() OVER (PARTITION BY COL1 ORDER BY COL2) 表示根据COL1分组,在分组内部根据 COL2排序,而此函数计算的值就表示每组内部排序后的顺序编号(组内连续的唯一的)语法...

2019-05-05 22:48:49 2416

原创 SVM面试总结

1、概括 SVM是一种监督式的二分类模型,它通过寻找最大间隔分类平面wx+b=0将正负类样本进行区分,对于线性不可分情况,通过核技法将低维空间映射到高维空间,使其线性可分。 1、当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机; 2、当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机; ...

2019-04-08 21:07:02 979

原创 决策树面试总结

1、概括 顾名思义,决策树就是一棵树,一颗决策树包含一个根节点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集,从根结点到每个叶子结点的路径对应了一个判定测试序列。决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类...

2019-04-08 20:55:41 791

原创 逻辑回归面试总结

1、概括虽然逻辑回归能够用于分类,不过其本质还是线性回归。它仅在线性回归的基础上,在特征到结果的映射中加入了一层sigmoid函数(非线性)映射,即先把特征线性求和,然后使用sigmoid函数来预测。逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。逻辑回归:线性回归可以预测连续值,但是不能解决分类问题,我们需要根据预测的结果判...

2019-03-19 13:12:12 2027

转载 Oracle中over函数

转发 https://blog.csdn.net/a1065423444/article/details/75635611

2018-07-10 14:38:35 1039

原创 自然语言处理中的词袋模型

词袋模型from sklearn.feature_extraction.text import CountVectorizerimport osimport reimport jieba.posseg as pseg# 加载停用词表stop_words_path = './stop_words/'stopwords1 = [line.rstrip() for line in ...

2018-07-05 17:42:21 497

原创 Python文本特征及分类

1、情感分析# 简单的例子import nltkfrom nltk.stem import WordNetLemmatizerfrom nltk.corpus import stopwordsfrom nltk.classify import NaiveBayesClassifiertext1 = 'I like the movie so much!'text2 = 'That ...

2018-07-05 17:24:29 2072

原创 Python自然语言处理

1、NLTK基本操作import nltknltk.download()import nltkfrom nltk.corpus import brown # 需要下载brown语料库# 引用布朗大学的语料库# 查看语料库包含的类别print(brown.categories())# 查看brown语料库print('共有{}个句子'.format(len(brown.sents...

2018-07-05 17:14:49 351

原创 Python文本数据处理

1、文本基本操作text1 = 'Python is a widely used high-level programming language for general-purpose programming, created by Guido van Rossum and first released in 1991.'# 字符个数print(len(text1))# 获取单词te...

2018-07-04 15:20:32 1900

原创 Pandas时间序列处理

1、创建from datetime import datetimeimport pandas as pdimport numpy as np# 指定index为datetime的listdate_list = [datetime(2018, 3, 3), datetime(2018, 3, 4), datetime(2018, 3, 10), dateti...

2018-07-04 10:38:50 1117

原创 Python的日期和时间处理

1、datetime模块from datetime import datetimenow = datetime.now()print(now)print(type(now))print('年: {}, 月: {}, 日: {}'.format(now.year, now.month, now.day))diff = datetime(2018, 3, 25, 17) - dateti...

2018-07-04 10:17:50 617

原创 TensorFlow识别手写数字

数据链接:https://pan.baidu.com/s/1ICxdODACssxtbf3hs_PT3w 密码:rsx3# 加载MNIST数据集from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets('MNIST_data', one_hot=True)# 查看...

2018-07-03 12:42:09 195

原创 TensorFlow入门

import tensorflow as tf计算模式–计算图a = tf.constant([1.0, 2.0], name='a')b = tf.constant([1.0, 2.0], name='b')result = a + bprint(result)# 如果没有特殊声明,a.graph返回其所属的计算图,即默认的计算图print(a.graph == tf.get_...

2018-07-03 12:29:58 211

原创 人工神经网络

import numpy as npimport matplotlib.pyplot as pltimport pandas as pdimport seaborn as snsfrom sklearn.model_selection import train_test_splitANN建模import numpy as npimport matplotlib.pyplot as...

2018-07-03 12:23:26 289

原创 K-Means聚类及图像压缩

数据链接:https://pan.baidu.com/s/1cz8SihL2HYh_cFudc7y07Q 密码:tr35import numpy as npimport cv2import matplotlib.pyplot as plt original_img = cv2.imread('./images/ColorfulBird.jpg')print('图像维度:', orig...

2018-07-03 11:55:53 1359

原创 Python中常用的图像特征

数据链接:https://pan.baidu.com/s/1cz8SihL2HYh_cFudc7y07Q 密码:tr35import cv2import numpy as np1、颜色特征img_gray_data = cv2.imread('./images/messi.jpg', cv2.IMREAD_GRAYSCALE)hist, bins = np.histogram(im...

2018-07-03 11:51:56 1246

原创 Python图像数据基本概念及操作

数据链接:https://pan.baidu.com/s/1cz8SihL2HYh_cFudc7y07Q 密码:tr35 1、图像数据基本操作import cv2import matplotlib.pyplot as pltimport numpy as npfrom matplotlib import pyplot as plt# 随机生成500x500的多维数组random_i...

2018-07-03 11:26:57 378

原创 机器学习之集成学习

数据链接:https://pan.baidu.com/s/1yW6gye5rJQ-Rn_iKlKUm1g 密码:ejkiimport numpy as npimport matplotlib.pyplot as pltimport pandas as pdimport seaborn as snsfrom sklearn.model_selection import train_tes...

2018-07-02 15:50:23 283

原创 Python机器学习之交叉验证

import numpy as npimport matplotlib.pyplot as pltimport pandas as pdimport seaborn as snsfrom sklearn.model_selection import train_test_split1、 数据加载# 加载数据集fruits_df = pd.read_table('fruit_dat...

2018-07-02 15:28:11 1463 2

原创 Python机器学习之特征工程

数据链接:https://pan.baidu.com/s/1yW6gye5rJQ-Rn_iKlKUm1g 密码:ejkiimport numpy as npimport matplotlib.pyplot as pltimport pandas as pdimport seaborn as snsfrom sklearn.model_selection import train_tes...

2018-07-02 15:16:04 634

原创 机器学习常用算法

1、kNNimport numpy as npimport matplotlib.pyplot as pltimport pandas as pdimport seaborn as snsfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scorefr...

2018-07-02 15:02:55 221

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除