genghaihua
码龄13年
关注
提问 私信
  • 博客:1,142,346
    社区:50
    1,142,396
    总访问量
  • 181
    原创
  • 1,293,341
    排名
  • 101
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2012-04-28
博客简介:

花花公子

博客描述:
中关村打工仔
查看详细资料
个人成就
  • 获得289次点赞
  • 内容获得50次评论
  • 获得1,199次收藏
  • 代码片获得283次分享
创作历程
  • 9篇
    2020年
  • 90篇
    2019年
  • 77篇
    2018年
  • 2篇
    2017年
  • 5篇
    2016年
  • 76篇
    2015年
  • 22篇
    2014年
  • 61篇
    2013年
成就勋章
TA的专栏
  • c++
    20篇
  • python
    20篇
  • 算法
    36篇
  • ACM
    14篇
  • 编程
    5篇
  • 数据库
    14篇
  • c#
    4篇
  • R
    2篇
  • hadoop
    15篇
  • leetcode
    4篇
  • linux shell
    15篇
  • hive
    14篇
  • java
    31篇
  • InfoBright
    1篇
  • docker
    4篇
  • 机器学习
    37篇
  • spark
    10篇
  • 网络配置
    3篇
  • elasticsearch
    5篇
  • zookeeper
  • zoo
    1篇
  • intellij idea
    1篇
  • redis
    1篇
  • ftp
  • hbase
    1篇
  • spring boot
    6篇
  • kettle
  • Spring
    34篇
兴趣领域 设置
  • 人工智能
    语音识别机器学习深度学习神经网络自然语言处理tensorflow图像处理nlp数据分析
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

179人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

seaborn heatmap 热力图

fig, axes =plt.subplots(1,2)# print(train_df.corr())sns.heatmap(train_df.corr(), square=True, annot=True,ax=axes[0])sns.heatmap(train_df.corr(), annot=True,ax=axes[1])plt.show()可以看到各个特征变量之间的相关性都比较小(一般相关系数大于0.6可以进行变量剔除)。...
原创
发布博客 2020.05.21 ·
1206 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

seaborn violinplot小提琴图

小提琴图是用来展示多组数据的分布状态以及概率密度。跟箱线图类似,但是可以密度层面展示更好。在数据量非常大不方便一个一个展示的时候小提琴图特别适用。小提琴图如下:小提琴图各位置对应参数,中间一条就是箱线图数据,25%,50%,75%位置,细线区间为95%置信区间。import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('d..
原创
发布博客 2020.05.21 ·
1618 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

seaborn boxplot 箱线图

# coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('display.max_columns', None)pd.set_option('display.width', None)plt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签plt.rcParams['f.
原创
发布博客 2020.05.21 ·
1975 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Seaborn distplot 核密度估计和直方图估计混合

# coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('display.max_columns', None)pd.set_option('display.width', None)plt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签plt.rcParams['f.
原创
发布博客 2020.05.21 ·
717 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

seaborn kdeplot 核密度估计

# coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('display.max_columns', None)pd.set_option('display.width', None)plt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签plt.rcParams['f.
原创
发布博客 2020.05.21 ·
1014 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

seaborn countplot 统计

value counts for a single and tow categorical variable # coding=utf-8import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltpd.set_option('display.max_columns', None)pd.set_option('display.width', None)plt....
原创
发布博客 2020.05.21 ·
883 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

分类模型指标ks的含义

如果理解ROC曲线的话,就很容易理解KS了。roc横纵坐标分别为FPR、TPR。KS横轴为阈值,纵轴为不同阈值下的TPR,FPR,KS值是MAX(TPR - FPR),即两曲线相距最远的距离ks值 含义 > 0.3 模型预测性较好 0,2~0.3 模型可用 0~0.2 模型预测能力较差 < 0 模型错误 征信模型中,最期望得到的信用分数分布是正态分布,对于正负样本分别而言,也都是期望呈正态分布的样子。如果KS值过大,一般...
原创
发布博客 2020.05.15 ·
6827 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

mysql 获取指定index的列,查询第几列的数据

有同事面试问道这个题目,无聊之下实现了一下。SET @table_name="dim_app_id_source";#表名SET @position_index=3;#第几列SET @limit_num=20;#取多少条数据SET @col_name = (SELECT COLUMN_NAME FROM information_schema.COLUMNS WHERE table_na...
原创
发布博客 2020.04.29 ·
2772 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

XGBoost二阶泰勒展开公式推导

转载
发布博客 2020.01.07 ·
4544 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

机器学习--Logistic回归计算过程的推导

Logistic回归总结作者:洞庭之子微博:洞庭之子-Bing(2013年11月)PDF下载地址:http://download.csdn.net/detail/lewsn2008/65474631.引言看了Stanford的Andrew Ng老师的机器学习公开课中关于Logistic Regression的讲解,然后又看了《机器学习实战》中的LogisticR...
转载
发布博客 2019.12.27 ·
297 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

securecrt不同session在同一个窗口打开

点击session,右键,选择上open sessions in a tap
原创
发布博客 2019.10.15 ·
2744 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

Python 确定多项式拟合/回归的阶数

通过 1至10 阶来拟合对比 均方误差及R评分,可以确定最优的“最大阶数”。import numpy as npimport matplotlib.pyplot as pltfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.linear_model import LinearRegression,Perce...
转载
发布博客 2019.07.26 ·
2589 阅读 ·
2 点赞 ·
1 评论 ·
8 收藏

协方差矩阵的向量表示推导

多维随机变量的协方差矩阵对多维随机变量X=[X1,X2,…,Xn]TX=[X1,X2,…,Xn]T,我们往往需要计算各维度之间的协方差,这样协方差就组成了一个n×nn×n的矩阵,称为协方差矩阵。协方差矩阵是一个对角矩阵,对角线上的元素是各维度上随机变量的方差。 我们定义协方差为ΣΣ, 矩相关性,而不是对象之间的,所以协方差矩阵的大小与维度相同。cici表示第i维的随机变量。这里分母为m...
转载
发布博客 2019.07.08 ·
2079 阅读 ·
3 点赞 ·
0 评论 ·
8 收藏

牛顿法

牛顿法用于最优化在最优化的问题中,线性最优化至少可以使用单纯行法求解,但对于非线性优化问题,牛顿法提供了一种求解的办法。假设任务是优化一个目标函数f,求函数f的极大极小问题,可以转化为求解函数f的导数f'=0的问题,这样求可以把优化问题看成方程求解问题(f'=0)。剩下的问题就和第一部分提到的牛顿法求解很相似了。这次为了求解f'=0的根,把f(x)的泰勒展开,展开到2阶形式:上面的表...
转载
发布博客 2019.06.27 ·
226 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

python利用eval方法提升dataframe运算性能

eval方法可以直接利用c语言的速度,而不用分配中间数组,不需要中间内存的占用.如果包含多个步骤,每个步骤都要分配一块内存import numpy as npimport pandas as pdimport timeitdf = pd.DataFrame({'a': np.random.randn(10000000), 'b': np....
原创
发布博客 2019.06.19 ·
2020 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

numpy数据类型

numpy中常见的数据类型如下。在使用的时候依据数据范围选择合适的数据类型,避免占用不必要的内存。Numpy type C type Description np.int8 int8_t Byte (-128 to 127) np.int16 int16_t Integer (-32768 to 32767) np.int32 int32...
原创
发布博客 2019.06.19 ·
529 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

numpy copy(无拷贝 浅拷贝、深拷贝)类型说明

numpy copy分为三种,no copy,shallow copy or view,deep copy三种。1 无拷贝简单的复制操作不会产生对象的复制操作。import numpy as npa = np.arange(12)b=a #对象复制,a,b地址一样b.shape = 3,4 #a对象的shape也会变化2 浅拷贝 view操作,如numpy的slic...
原创
发布博客 2019.06.19 ·
23443 阅读 ·
25 点赞 ·
2 评论 ·
36 收藏

xgb 切分点选择

XGBoost是串行生成CART树,但是XGBoost在处理特征时可以做到并行处理,XGBoost并行原理体现在最优切分点的选择,假设样本数据共M个特征,对于某一轮CART树的构建过程中,选择最佳切分点算法如下图:最佳切分点流程图1. 红色框表示根据每个特征大小对训练数据进行排序,保存为block结构,block个数与特征数量相等。2. 绿色宽表示对每个block结构选择最佳特征切分点...
转载
发布博客 2019.06.18 ·
1358 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

目标函数、损失函数、代价函数

损失函数和代价函数是同一个东西,目标函数是一个与他们相关但更广的概念,对于目标函数来说在有约束条件下的最小化就是损失函数(loss function)1损失函数 (一般针对个体)我们给定 ,这三个函数都会输出一个 ,这个输出的 与真实值 可能是相同的,也可能是不同的,为了表示我们拟合的好坏,我们就用一个函数来度量拟合的程度,比如: ,这个函数就称为损失函数(loss func...
原创
发布博客 2019.06.15 ·
417 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

先验概率和后验概率的区别

从原因到结果的论证称为“先验的”,而从结果到原因的论证称为“后验的”。假如A代表结果,B代表导致A发生的原因那么P(Bi)表示先验概率P(Bi|A)代表后验概率贝叶斯公式:P(Bi|A)=P(A|Bi)P(Bi)/P(A)...
原创
发布博客 2019.06.15 ·
7390 阅读 ·
3 点赞 ·
0 评论 ·
2 收藏
加载更多