象牙塔小明
码龄11年
关注
提问 私信
  • 博客:483,963
    483,963
    总访问量
  • 70
    原创
  • 996,371
    排名
  • 2,561
    粉丝

个人简介:机器学习 Python/Tensorflow/Spark/Scala

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:湖北省
  • 加入CSDN时间: 2014-04-06
博客简介:

象牙塔小明的博客

查看详细资料
个人成就
  • 获得256次点赞
  • 内容获得62次评论
  • 获得831次收藏
  • 代码片获得646次分享
创作历程
  • 4篇
    2022年
  • 5篇
    2021年
  • 8篇
    2020年
  • 20篇
    2019年
  • 39篇
    2018年
成就勋章
TA的专栏
  • pandas
    2篇
  • hive
    1篇
  • 正则表达式
    1篇
  • 算法题
    1篇
  • 营销实验相关
    1篇
  • SQL/hive
    1篇
  • 爬虫
    1篇
  • 机器学习理论
    11篇
  • Python
    33篇
  • Scikit_learn
    10篇
  • TensorFlow
    4篇
  • Pycharm
    4篇
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

preprocessing.LabelBinarizer()返回的结果不是one-hot怎么解决?

sklearn
原创
发布博客 2022.09.15 ·
302 阅读 ·
0 点赞 ·
2 评论 ·
0 收藏

hive中使用正则表达式匹配数字

匹配整数\d 是匹配一个数字(0到9)\d 前面多了第一个\ 是为了在程序中转义第二个\+表示 1个或多个组合起来\d+ 就表示多个数字,形如 12、44、6763……在hive中判断字符是不是数字,还需要增加首尾限制:^\d+$判断 id 字段是不是数组,则使用语句:id rlike ‘^\d+$’ 判断即可匹配小数\. 匹配一个小数点\d+\.\d+ 就表示小数,形如12.334、0.12、87.343……在hive中判断字符是不是小数,还需要增加首尾限制:^\d+\.\d+$
原创
发布博客 2022.04.15 ·
9855 阅读 ·
0 点赞 ·
2 评论 ·
16 收藏

时间片分流专利

https://xueshu.baidu.com/usercenter/paper/show?paperid=1e410ed0pu3j0jn03t0n00c0fc738579
原创
发布博客 2022.03.11 ·
393 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Python使用linux命令调用Jupyter文件

https://pypi.org/project/runipy/
原创
发布博客 2022.03.01 ·
570 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

社招面经记录

标题 Xgboost做了什么优化,有什么优缺点?deep&wide,deep和wide部分分别适合什么类型的特征,底层原理?为什么简历里面deep&wide效果不如deep正则化L1和L2的区别正则化的作用是针对过拟合提出,主要是限制模型权重,其中L1正则化会让更多的权重为0,即产生稀疏模型,L2正则化会权重接近0。L1正则先验服从拉普拉斯分布,L2服从高斯分布。...
原创
发布博客 2021.10.29 ·
197 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

窗口函数preceding和following字段

窗口函数经常和下面的用法配合使用:range between 3 preceding and -1 following7 preceding表示按照排序后到当前位置前7个-1 following表示按照排序后到当前位置后面-1个举例说明:indexvalue120221322423524使用语句order by index range between 2 preceding and -1 following用来计算value均值时,该语
原创
发布博客 2021.10.11 ·
3229 阅读 ·
0 点赞 ·
1 评论 ·
4 收藏

一文解决二分查找类笔试题

优质博客:https://www.cnblogs.com/kyoner/p/11080078.html看完了没有搞不定的二分查找
原创
发布博客 2021.08.29 ·
141 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

一、使用requests模块post请求爬取有道翻译结果

一、先直接上代码key是要翻译的词,输出是翻译结果:# -*- coding:utf-8 -*-# @FileName :1.4有道翻译_post请求.py# @Time :2021/8/15 19:39# @Author :象牙塔小明import requestsimport reurl = "https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"key = "学习"for
原创
发布博客 2021.08.15 ·
1116 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

为什么需要将数据集划分成训练集、验证集和测试集三部分?

评估模型的重点是将数据划分为三个集合:训练集、验证集和测试集。在训练数据上训练 模型,在验证数据上评估模型。一旦找到了最佳参数,就在测试数据上最后测试一次。你可能会问,为什么不是两个集合:一个训练集和一个测试集?在训练集上训练模型,然后在测试集上评估模型。这样简单得多!原因在于开发模型时总是需要调节模型配置,比如选择层数或每层大小[这叫作模型的超 参数(hyperparameter),以便与模型参数(即权重)区分开]。这个调节过程需要使用模型在验 证数据上的性能作为反馈信号。这个调节过程本质上就是一种学
原创
发布博客 2021.02.27 ·
12234 阅读 ·
7 点赞 ·
2 评论 ·
30 收藏

sklearn与机器学习系列专题之降维(二)一文弄懂LDA特征筛选&降维

目录1.PCA算法优缺点2.LDA算法简介3.枯燥又简洁的理论推导4.python实战LDA5.下篇预告1.PCA算法优缺点在上一篇推文中,我们详解了PCA算法。这是机器学习中最为常用的降维方法,能降低算法的计算开销,使得数据集更容易处理,且完全无参数的限制。但是,如果用户对观测对象有一定的先验知识,掌握了数据的一些特征,却很难按照预想的方法对处理过程进行干预,可能达不到预期的效果,在非高斯分布的情况下,PCA方法得出的主元可能也并不是最优的。2.LDA算法简介这时候,就要线性判别分析降维(Line
转载
发布博客 2020.11.14 ·
982 阅读 ·
3 点赞 ·
0 评论 ·
8 收藏

sklearn与机器学习系列专题之降维(一)一文弄懂PCA特征筛选&降维

伴随着通信与互联网技术的不断发展,人们收集和获取数据的能力越来越强,而这些数据已呈现出维数高、规模大和结构复杂等特点,当数据量非常大时,会面临维度灾难,即:1.在高维情况下,数据样本稀疏;2.涉及距离、内积的计算变得困难。缓解灾难的一个重要途径就是降维。本篇博客主要以PCA为例,讲解sklearn实现降维。1.标准PCA如下图所示,我们用两个特征——一个是attack、一个是defense来描述样本。作两条垂直的参考线,方差相差很大。在方差较大的方向上,所包含的信息就较多。降维要尽可能保持原始数据的
转载
发布博客 2020.11.14 ·
675 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

sklearn中train_test_split的用法

train_test_split的用法注意:旧版本的导入该模块是:from sklearn.cross_validation import train_test_split新版本改成了:from sklearn.model_selection import train_test_split作用:train_test_split函数用于将矩阵随机划分为训练子集和测试子集,并返回划分好的训练集测试集样本和训练集测试集标签。格式:X_train, X_test, y_train, y_test =cr
原创
发布博客 2020.10.18 ·
2101 阅读 ·
3 点赞 ·
6 评论 ·
6 收藏

封装Sklearn中roc_curve函数画ROC曲线并使用roc_auc_score函数计算AUC

画ROC曲线封装函数# 画ROC曲线函数def plot_roc_curve(y_true, y_score): """ y_true:真实值 y_score:预测概率。注意:不要传入预测label!!! """ from sklearn.metrics import roc_curve import matplotlib.pyplot as plt fpr,tpr,threshold = roc_curve(y_true, y_score, po
原创
发布博客 2020.10.18 ·
4165 阅读 ·
9 点赞 ·
6 评论 ·
41 收藏

pandas的cut,qcut函数的使用和区别

https://zhuanlan.zhihu.com/p/68194655
原创
发布博客 2020.09.06 ·
485 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

标签转换为独热码的三种方法Python

方法一:def to_one_hot(label, dimension=46):results = np.zeros((len(label), dimension))for i, label in enumerate(label):results[i, label] = 1.return resultsone_hot_train_label = to_one_hot(train_labels)one_hot_test_label = to_one_hot(test_labels)print(
原创
发布博客 2020.06.07 ·
5620 阅读 ·
2 点赞 ·
1 评论 ·
26 收藏

pandas数据聚合方法—agg方法

方法描述count计算分组中非NA值的数量sum计算非NA值的和mean计算非NA值的平均值median计算非NA值的算术中位数std、var计算非NA值标准差和方差min、max获得非NA值的最小和最大值prod计算非NA值的积first、last获得第一个和最后一个非NA值例如:...
原创
发布博客 2020.01.09 ·
1637 阅读 ·
2 点赞 ·
0 评论 ·
6 收藏

DataFrame和Series转换为ndarray的差别

numpy中的ndarray与pandas的Series和DataFrame之间的相互转换Series转换为ndarray是一个一维数组DataFrame转换为ndarray是一个多维数组
原创
发布博客 2020.01.07 ·
1534 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

一文搞懂pandas读取保存合并excel对列名index的常用操作

pandas读取excel设置第一列为序号设置参数index_col=0可以设置读取excel时第一列为序号,否则会自动添加一列序号从0开始:data = pd.read_excel(file_path, index_col=0)pandas读取excel设置第一行为列名默认参数 header=0 会设置读取的excel第一行为列名, header=None会新建一行从0开始的序号列名:...
原创
发布博客 2019.12.17 ·
5445 阅读 ·
2 点赞 ·
0 评论 ·
13 收藏

Sklearn遇到的一些bug记录

例如:如下案例有两个错误from sklearn.datasets import load_bostonfrom sklearn.feature_selection import SelectKBestfrom sklearn.feature_selection import chi2X_boston, y_boston = load_boston(return_X_y=True)K_...
原创
发布博客 2019.12.09 ·
1198 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

机器学习sklearn数据预处理:归一化-标准化/区间缩放-调整尺度/正态化

在sklean的预处理方法中主要有三种,每一种都有函数方法和类方法两种使用方法:归一化-标准化:normalize()函数/Normalizer()类区间缩放-调整尺度: minmax_scale函数/MinMaxScaler()类正态化:scale()函数/StandardScaler()类归一化/标准化处理将每一行数据的向量模长(欧氏距离)处理成1.方法一:normalize()...
原创
发布博客 2019.12.03 ·
2411 阅读 ·
4 点赞 ·
0 评论 ·
13 收藏
加载更多