自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (1)
  • 收藏
  • 关注

原创 “达观杯”文本智能处理挑战赛-任务五

一、LightGBM模型 1.简介 顾名思义,lightGBM包含两个关键点:light即轻量级,GBM 梯度提升机。 LightGBM 是一个梯度 boosting 框架,使用基于学习算法的决策树。它可以说是分布式的,高效的,有以下优势: 更快的训练效率 低内存使用 更高的准确率 支持并行化学习 可处理大规模数据 2. 特点 概括来说,lightGBM主要有以下特点: 基于Histogram的决...

2019-04-13 22:14:53 141

原创 “达观杯”文本智能处理挑战赛-任务四

一、逻辑回归(LR)模型 1. 逻辑回归(LR)原理 LR模型是在线性回归的基础上,把特征进行线性组合,再把组合的结果通过一层sigmoid函数映射成结果是1或是0的概率。 2. 代码实现 import pickle from sklearn.linear_model.logistic import LogisticRegression from sklearn.model_selection ...

2019-04-11 21:32:20 123

原创 “达观杯”文本智能处理挑战赛-任务三

一、Word2vec词向量原理 二、Word2vec实践 Word2vec表示文本

2019-04-09 16:51:51 252

原创 “达观杯”文本智能处理挑战赛-任务二

一、TF-IDF理论 1.百科介绍: TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。 2.原理 TF 在一份给定的文件里,词频(term frequency, TF)指的是...

2019-04-07 20:56:12 565

原创 “达观杯”文本智能处理挑战赛-任务一

加粗样式

2019-04-05 21:20:17 197

第1章 数据库基础知识

数据库基础知识数据处理:对数据进行收集、储存、加工和传播。 其目的有二: 从大量原始数据中推导出有价值信息 利用计算机科学地管理这些数据 数据管理:对数据进行分类、组织、储存、检索和维护。 数据管理是数据处理的中心问题。主要围绕提高数据独立性、降低数据的冗余度、提高数据共享性、提高数据的安全性和完整性等方面来进行改进,使使用者能有效地管理和使用数据资源。 数据管理技术经历:人工管理、文件系统、数据库系统和高级数据库阶段

2017-09-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除