- 博客(20)
- 收藏
- 关注
原创 基金的分类详解
基金分类的详解按投资对象分类股票型基金债券型基金货币型基金混合型基金想要稳定:债券型基金/偏债型的混合基金想要高收益:且抗风险能力强股票型基金/偏股型的混合基金按基金的募集方式公募基金私募基金按基金的运作方式开放式基金基金的总份额是不固定的可以随时申购和赎回流动性比较高但一般不上市在场内交易封闭式基金有封闭期在这个封闭期内基金的份额是固定的并且在封闭期内不能进行申购和赎回按基金的管理模式主动型基金被动性基金...
2022-01-27 20:50:28
11094
原创 微表情与身体语言
主讲:纪宇 (一刻talks)读心术的体系线索:微表情+微动作+微反应+潜台词+潜意识方法:观察法+分析法+刺探法+冷读法+投射法+诱导法领域:情感+家庭+亲子+职场+销售+人际+自我情绪和表情是进化的产物1.什么是微表情现象?微表情是什么?定义:持续在1/4秒以下转瞬即逝的表情意义:表达压抑与隐藏的真实情感发现者:美国心理学家保罗艾克曼经过训练人用肉眼完全可以捕捉到2.微表情识别举例区分真笑和假笑视线的位置与心理活动3.职场中的真情假意– 职场中喜欢的信号1.眼神
2022-01-27 17:35:55
6386
原创 【天池大赛】快来一起挖掘幸福感 -- 简介
赛题背景赛题尝试了幸福感预测这一经典课题,希望在现有社会科学研究外有其他维度的算法尝试,结合多学科各自优势,挖掘潜在的影响因素,发现更多可解释、可理解的相关关系。赛题说明赛题使用公开数据的问卷调查结果,选取其中多组变量,包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、家庭变量(父母、配偶、子女、家庭资本等等)、社会态度(公平、信用、公共服务等等),来预测其对幸福感的评价。数据说明考虑到变量个数较多,部分变量间关系复杂,数据分为完整版和精简版两类。可从精简版入手熟悉赛题后,使用完整
2021-01-28 21:22:53
841
1
原创 SQL 入门基础知识 04
USE crashcourse;--------------- CHAPTER 4 检索数据 --------------------- 4.1 SEELCT 语句# SELECT检索表数据,必须至少给出两条信息:想选择什么,以及从什么地方选择。-- 4.2 检索单个列SELECT prod_nameFROM products;## 利用SELECT语句从products表中检索一个名为prod_name的列。## *未排序数据* 如果没有明确排序查询结果,则返回的数据的顺序没有特殊意义。返
2020-12-22 21:51:43
168
原创 SQL 入门基础知识03
3.1 视图3.1.1 什么是视图视图是一个虚拟的表,不同于直接操作的表,视图是依据SELECT语句来创建的,所以操作视图时会根据创建视图的SELECT语句生成一张虚拟表,然后在这张虚拟表上做SQL操作。3.1.2 视图与表有什么区别视图与表的区别 – “是否保存了实际的数据”。所以视图并不是数据库真实存储的数据表,它可以看作是一个窗口,通过这个窗口我们可以看到数据库表中真实存在的数据。所以我们要区别视图和数据表的本质,即视图是基于真实表的一张虚拟的表,其数据来源均建立在真实表的基础上。3.1.3
2020-12-20 23:34:10
201
1
原创 SQL 基本概念梳理 -- 小记
概念含义数据库(database)保存有组织数据的容器(通常就是一个文件或一组文件)数据库管理系统(DBMS)数据库软件应称为DBMS.数据库是通过DBMS创建和操纵的容器。数据库可以是保存在设备上的文件,但也可以不是。你并不是直接访问数据库,你使用的DBMS,它替你访问数据库表(table)某种特定类型数据的结构化清单。关键点在于存储在表中的数据是一种类型的数据或者一个清单。决不应该将顾客的清单与订单的清单存储在同一个数库表中,这会使以后的检索和访问很困难。-----...
2020-12-18 10:52:12
202
原创 SQL入门基础知识02 -- 数据查询与排序
数据查询与排序2 数据查询2.1 简单查询2.2 条件查询2.3 模糊查询2.4 空值查询(WHERE + IS NULL)2.5 单表查询2.6 多表查询2.6.1 内连接查询 (INNER JOIN)2.6.2 外连接查询 (OUTER JOIN)2 数据查询2.1 简单查询简单查询 SELECT * FROM 表名;查询指定字段SELECT 字段名 1, 字段名 2, 字段名 3 FROM 表名;为查询的列指定别名1.SELECT 字段名 1 as 列名1, 字段名 2 as
2020-12-17 22:13:53
856
原创 SQL 入门基础知识01 -- DW Team Learning
Task 01: 初识数据库1.1 初识数据库1.1.1 DBMS 的种类1.1.2 RDBMS 的常见系统结构1.2 初识 SQL1.2.1 MySQL 命令行实用程序1.2.2 MySQL 数据库的主要操作1.2.3 MySQL 数据类型1.2.4 数据表结构1.2.5 创建数据库表1.1 初识数据库什么是数据库?数据库是一个以某种有组织的方式存储数据的集合。可以把它想像成一个文件柜,这个文件柜是一个存放数据的物理位置,不管数据是什么,也不管数据是如何组织的。数据库(database,DB)
2020-12-14 15:36:54
753
原创 Task 05 排序模型 + 模型融合
通过召回的操作,我们已经进行了问题规模的缩减,对每个用户选择出了N篇文章作为了候选集,并基于召回的候选集构建了与用户历史相关的特征以及用户本身的属性特征、文章本身的属性特征,用户与文章之间的特征。下面就是使用机器学习模型来构造好的特征进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章作为最终的结果。 排序阶段选择了三个比较有代表性的排序模型,它们分别是:1.LGB的排序模型。2.LGB的分类模型。3.深度学习的分类模型DIN。 得到了最终的排序模型
2020-12-06 22:15:29
298
1
原创 Task 04 特征工程
1. 制作特征和标签,转成监督学习问题我们先捋一下基于原始的给定数据,有哪些特征可以利用:\文章的自身特征: category_id表示这文章的类型,created_at_ts表示文章建立的时间,这个变量着眼于文章的时效性,words_count是文章的字数,一般字数太长我们不太喜欢点击,也不排除有人就喜欢读长文。文章的内容embedding特征,这个召回的时候用过,这里可以选择使用,也可以选择不用,也可以尝试其他类型的embedding特征,比如W2V等。用户的设备特征信息上面这些直接可以用
2020-12-03 22:11:46
167
原创 Task03 多路召回
所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在计算速度和召回率之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。导包import pandas as pdimport numpy as npfrom tqdm import tqdmfrom collections import defaultdictimp
2020-11-30 22:37:45
209
原创 Task02 数据分析
数据分析数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据,具体的文件中的每个字段表示什么实际含义,以及数据集中特征之间的相关性,在推荐场景下主要是分析用户本身的基本属性,文章基本属性,以及用户和文章交互的一些分布,这些都有利于后面的召回策略的选择,以及特征工程。建议: 当特征工程和模型调参已经很难继续上分了,可以回来重新从新的角度去分析这些数据,或许可以找到上分的灵感。字段表user_id — 用户idclick_article_id
2020-11-27 22:09:15
211
原创 Task01: 赛题理解+Baseline
机器学习欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编
2020-11-25 20:29:35
314
原创 GBDT + LR
7.1 GBDT+LR 简介协同过滤和矩阵分解存在的裂时就是进利用了用户与物品相互行为信息进行推荐,忽视了用户自身特征,物品自身特征以及上下文信息等,导致生成的结果往往会比较片面。GBDT+LR模型是2014年由Facebook提出,该模型利用GBDT自动进行特征筛选和组合,进而生成新的离散特征向量,再把该特征向量做LR模型的输入,来产生最后的预测结果,该模型能够综合利用用户、物品和上下文多种不同的特征,生成较为全面的推荐结果,在CTR点击率预估场景下使用较为广泛。7.2 逻辑回归模型在推荐系统里面,
2020-10-30 23:33:36
192
原创 FM 模型
5.1 FM模型的引入5.1.1 逻辑回归模型及其缺点FM模型其实是一种思路,具体的应用较少。一般来说做推荐CTR预估时最简单的思路就是将线性组合(逻辑回归LR),传入sigmoid中得到一个概率值,本质上这就是一个线性模型,因为sigmoid是单调函数不会改变里面的线性模型的CTR预测顺序,因此逻辑回归模型效果会比较差。LR的缺点:是一个线性模型每个特征对最终输出结果独立,需要手动特征交叉,比较麻烦。5.1.2 二阶交叉项的考虑及改进由于LR模型的上述缺陷(主要是手动做特征交叉比较麻烦)
2020-10-29 13:33:39
559
原创 Wide & Deep 模型简介
6.1 点击率预估简介点击率预估是用来解决什么问题?点击率预估是对每次广告点击情况做出预测,可以输出点击或者不点击,也可以输出点击或者不点击的概率,后者有时候也称为pClick.点击率预估模型需要做什么?通过上述点击率预估的基本概念,我们会发现其实点击率预估问题就是一个二分类的问题,在机器学习中可以使用逻辑回归最为模型的输出,其输出就是一个概率值,我们可以将机器学习输出的这个概率值认为是某个shi用户点击某个广告的概率。点击率预估与推荐算法有什么不同?广告点击率预估是需要得到某个用户对某个广告
2020-10-29 11:47:50
544
原创 01 基于用户的协同过滤算法
协同推荐方法的主要思想是利用关于过去行为的信息或现有用户社区的意见来预测系统的当前用户最可能喜欢或感兴趣的项目。这些类型的系统如今在工业上被广泛使用,特别是作为在线零售网站中的工具,以根据特定客户的需求定制内容,从而促进额外的产品以增加销售额。多年来,古圣先贤们已经提出了各种算法和技术,并成功地对真实世界和人工测试数据进行了评估。纯协同方法以用户商品评级矩阵作为唯一输入,通常产生以下类型的输出:1.数字预测,表明当前用户喜欢或不喜欢某一商品的程度。2.包含n个推荐商品的列表。此top-N列表不应该包含当
2020-10-22 21:20:52
528
1
原创 推荐系统
推荐系统 – DW 组队学习基本概念介绍1.1.1 Collaborative recommendation这些系统的基本思想是:如果用户在过去分享了相同的物品,即如果他们浏览或购买了相同的书籍,那么他们在未来也会有相似的品味。基于此,如果用户A和用户B有着 *强烈重叠* 的购买历史,并且用户A最近购买了一本用户B至今没见过的书,基本原理就是把这本书也推荐给用户B。因为选择这种对于用户B也有希望会对这本书也有兴趣的操作涉及从一个很大的集合中过滤出最有可能的书籍,并且因为用户之间有着隐含地相互协
2020-10-19 23:04:28
201
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人