简之
码龄7年
  • 290,828
    被访问
  • 84
    原创
  • 534,079
    排名
  • 225
    粉丝
  • 10
    铁粉
关注
提问 私信
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2015-04-04
博客简介:

简之的通向技术之路

博客描述:
技术日志
查看详细资料
个人成就
  • 获得301次点赞
  • 内容获得79次评论
  • 获得1,337次收藏
创作历程
  • 15篇
    2021年
  • 23篇
    2019年
  • 58篇
    2018年
成就勋章
TA的专栏
  • 通向实在之路:数据科学实战
    5篇
  • 数据结构与算法
    17篇
  • 机器学习
    15篇
  • 大数据
    12篇
  • 数学基础
    8篇
  • 编程语言
    12篇
  • 数据分析
    12篇
  • 计算机系统
    4篇
  • 论文精读
    1篇
  • 深度学习
    6篇
  • 推荐系统
    2篇
兴趣领域 设置
  • 数据结构与算法
    排序算法推荐算法
  • 人工智能
    tensorflowpytorchscikit-learn聚类集成学习迁移学习分类回归
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

常用的窗口函数

1、什么是窗口函数含义:窗口函数也叫OLAP函数(Online Anallytical Processing,联机分析处理),可以对数据进行实时分析处理。作用:解决排名问题,e.g.每个班级按成绩排名解决TOPN问题,e.g.每个班级前两名的学生语法:select 窗口函数 over (partition by 用于分组的列名, order by 用于排序的列名分类:排名函数:row_number(),rank(),dense_rank()聚合函数:max(),min(),count
原创
发布博客 2021.07.11 ·
4675 阅读 ·
6 点赞 ·
0 评论

自然语言处理中的Transformer

1、seq2seqseq2seq 是一个 Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列, Encoder 中将一个可变长度的信号序列变为固定长度的向量表达,Decoder 将这个固定长度的向量变成可变长度的目标的信号序列。这个结构最重要的地方在于输入序列和输出序列的长度是可变的,可以用于翻译,聊天机器人,句法分析,文本摘要等。seq2seq的结构如下:当然,目前说到seq2seq,最为人所熟知的就是Transformer,Transformer的结构如下:2
原创
发布博客 2021.07.05 ·
305 阅读 ·
1 点赞 ·
2 评论

企业隐患排查文本挖掘比赛(三):LGB文本分类(调参+阈值搜索)

1、数据集经过前两部分的处理,我们可以得到参与建模的变量,统计类特征的处理包括在mainProcess中,bert构建的特征包括在get_bert_features中,数据预处理如下:import warningswarnings.simplefilter('ignore')import reimport gcimport pickleimport numpy as npimport pandas as pdpd.set_option('max_columns', None)pd.se
原创
发布博客 2021.07.04 ·
663 阅读 ·
2 点赞 ·
4 评论

企业隐患排查文本挖掘比赛(二):算法篇(从词向量到BERT)

1、文本挖掘的历程对于NLP问题,首先要解决的是文本表示的问题。虽然人能够清楚地了解文本的含义,但是计算机只能处理数值运算,因此首先要考虑如何将文本转化为数值。1.1 向量表示1.1.1 词袋模型最初的方案是通过词袋模型把一个句子转化为向量表示。它不考虑句子中单词的顺序,只考虑词表(vocabulary)中单词在这个句子中的出现次数。如果是表示一个词,那就是one-hot的方式,比如我们想表示apple这个词,就在对应位置设置1,其他位置设置为0,如下:如果是表示一个句子,比如:"John
原创
发布博客 2021.07.02 ·
588 阅读 ·
1 点赞 ·
0 评论

企业隐患排查文本挖掘比赛(一):数据篇

1、比赛说明基于文本挖掘的企业隐患排查质量分析模型1.1 赛题背景企业自主填报安全生产隐患,对于将风险消除在事故萌芽阶段具有重要意义。企业在填报隐患时,往往存在不认真填报的情况,“虚报、假报”隐患内容,增大了企业监管的难度。采用大数据手段分析隐患内容,找出不切实履行主体责任的企业,向监管部门进行推送,实现精准执法,能够提高监管手段的有效性,增强企业安全责任意识。1.2 赛题任务本赛题提供企业填报隐患数据,参赛选手需通过智能化手段识别其中是否存在“虚报、假报”的情况。1.3 赛题数据训练集:
原创
发布博客 2021.06.29 ·
349 阅读 ·
3 点赞 ·
3 评论

『pyspark』三:RDD数据处理

1、使用Pyspark1.1 Linking with Sparkfrom pyspark import SparkContext, SparkConf1.2 Initializing Sparkconf = SparkConf().setAppName(appName).setMaster(master)sc = SparkContext(conf=conf)2、RDD2.1 读取数据2.1.1 parallelizerdd = sc.parallelize([('Amber', 2
原创
发布博客 2021.06.27 ·
862 阅读 ·
0 点赞 ·
1 评论

『pyspark』〇:spark的安装、配置和使用

PySpark安装、配置和使用
原创
发布博客 2021.06.26 ·
829 阅读 ·
0 点赞 ·
0 评论

『pyspark』二:RDD基础

Spark计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的应用场景。三大数据结构分别是:RDD : 弹性分布式数据集累加器:分布式共享只写变量广播变量:分布式共享只读变量1、什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。RDD是最小的计算单元:为什么RDD是最小的计算单元?因为实际
原创
发布博客 2021.06.20 ·
43 阅读 ·
1 点赞 ·
0 评论

『pyspark』一:spark基础

1、简介1.1 spark VS hadoopspark和hadoop的根本差异是多个作业之间的数据通信问题:spark多个作业之间数据通信是基于内存,而hadoop是基于磁盘。1.2 核心模块spark core:提供spark最基础与最核心的功能spark SQL:spark用来操作结构化数据的组件,可以使用SQL来查询数据spark Streaming:spark平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的APIspark MLlib:机器学习算法库spark Gr
原创
发布博客 2021.06.20 ·
123 阅读 ·
0 点赞 ·
1 评论

DSSM双塔模型及pytorch实现

本文介绍用于商业兴趣建模的 DSSM 双塔模型。作为推荐领域中大火的双塔模型,因为效果不错并且对工业界十分友好,所以被各大厂广泛应用于推荐系统中。通过构建 user 和 item 两个独立的子网络,将训练好的两个“塔”中的 user embedding 和 item embedding 各自缓存到内存数据库中(redis)。线上预测的时候只需要在内存中计算相似度运算即可。DSSM 双塔模型是推荐领域不中不得不会的重要模型。以 YouTube 视频推荐系统为例,一般推荐系统包括两个部分:第一步是召回模
原创
发布博客 2021.06.20 ·
5366 阅读 ·
15 点赞 ·
17 评论

信用评分卡模型

1、评分卡简介信用评分卡模型是最常见的金融风控手段之一,它是指根据客户的各种属性和行为数据,利用一定的信用评分模型,对客户进行信用评分,据此决定是否给予授信以及授信的额度和利率,从而识别和减少在金融交易中存在的交易风险。评分卡模型在不同的业务阶段体现的方式和功能也不一样。按照借贷用户的借贷时间,评分卡模型可以划分为以下三种:贷前:申请评分卡(Application score card),又称为A卡贷中:行为评分卡(Behavior score card),又称为B卡贷后:催收评分卡(
原创
发布博客 2021.06.19 ·
1201 阅读 ·
2 点赞 ·
1 评论

『pytorch』四:自定义模型

1、nn.Modulepytorch里面一切自定义操作基本上都是继承nn.Module类来实现的,因此首先要看一下nn.Module类的定义。1.1 类方法class Module(object): def __init__(self): # 核心功能 def forward(self, *input): # 每次运行时都会执行的步骤,所有自定义的module都要重写这个函数 def add_module(self, name, module):
原创
发布博客 2021.06.19 ·
530 阅读 ·
2 点赞 ·
0 评论

『pytorch』三:建模流程

1、数据预处理数据预处理主要包括两个函数data.TensorDataset和data.DataLoader,其中:data.TensorDataset:用来对 tensor 进行打包,就好像 python 中的 zip 功能,生成的数据集可索引可迭代。data.DataLoader:用来包装所使用的数据,每次抛出一批数据(batch_size)。# 划分训练集和测试集样本train_features = torch.tensor(all_features[:n_train].values,
原创
发布博客 2021.06.19 ·
60 阅读 ·
0 点赞 ·
0 评论

『pytorch』二:自动求梯度(autograd)

1、概念Tensor是这个包的核心类,如果将其属性.requires_grad设置为True,它将开始追踪(track)在其上的所有操作。完成计算后,可以调用.backward()来完成所有梯度计算。此Tensor的梯度将累积到.grad属性中。注意在调用.backward()时,如果Tensor是标量,则不需要为backward()指定任何参数;否则,需要指定一个求导变量。如果不想要被继续追踪,可以调用.detach()将其从追踪记录中分离出来,这样就可以防止将来的计算被追踪。此外,还可以用wi
原创
发布博客 2021.06.19 ·
163 阅读 ·
0 点赞 ·
0 评论

『pytorch』一:数据处理

数据处理1.创建tensor1.1 直接创建直接根据数据创建:x = torch.tensor(2,3) # 创建 2*3 的 tensorx = torch.tensor([5.5, 3]) # 创建 tensor,值为[5.5, 3]print(x)# tensor([5.5000, 3.0000])# 在制定 GPU 上创建与 data 一样的类型torch.tensor(data, dtype=torch.float64, device=torch.device(
原创
发布博客 2021.06.16 ·
110 阅读 ·
0 点赞 ·
1 评论

『统计学』第五部分:方差分析和F检验

『方差分析』第四部分的卡方检验是研究类别变量之间的关系,而这一部分的方差分析则是研究类别型自变量与数值型因变量之间的关系,它在形式上是比较多个总体的均值是否相等。从形式上看,方差分析与之前的t检验或z检验区别不大,都是检验均值是否相等,但在比较多个均值时,t检验需要做多次两两比较的假设检验,而方差分析只需要一次,并且方差分析中是将所有的样本信息结合在一起,增加了分析的可靠性。下面我们仍旧从三...
原创
发布博客 2019.08.11 ·
19479 阅读 ·
18 点赞 ·
3 评论

『统计学』第四部分:回归分析和卡方检验

回归分析线性回归中的平方误差
原创
发布博客 2019.08.11 ·
4416 阅读 ·
1 点赞 ·
0 评论

『统计学』第三部分:假设检验

1、假设检验和p值
原创
发布博客 2019.08.04 ·
2275 阅读 ·
2 点赞 ·
0 评论

『统计学』第二部分:中心极限定理及其应用

请求
原创
发布博客 2019.07.31 ·
5752 阅读 ·
7 点赞 ·
2 评论

『统计学』第一部分:常用概率分布

期望值其实就是总体的均值只是随机变量的总体是无穷的,无法全部求和然后取平均值,于是我们需要用到频率进行加权平均,这同老式的求平均方法其实没有本质区别。二项分布泊松分布...
原创
发布博客 2019.07.31 ·
1531 阅读 ·
4 点赞 ·
0 评论
加载更多