自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (9)
  • 收藏
  • 关注

转载 【转载】word2vec 中的数学原理详解

文章目录一、前言二、预备知识三、背景知识四、基于 Hierarchical Softmax 的模型五、基于 Negative Sampling 的模型六、若干源码细节原文传送门:word2vec 中的数学原理详解word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 To...

2019-04-17 11:12:35 211

原创 集成学习(ensemble learning)(四)

该篇为集成学习的第四篇,主要关注GDBT,传送下之前的文章:集成学习(ensemble learning)(一)集成学习(ensemble learning)(二)集成学习(ensemble learning)(三)

2019-04-16 14:36:28 575

原创 【数据竞赛】“达观杯”文本智能处理挑战赛6——模型优化

文章目录一、超参数1、网格搜索2、随机搜索3、贝叶斯优化二、Stacking1、核心图解(1)构建新的训练集(2)构建新的测试集(3)最终的训练与预测2、示例(1)构建新的训练集(2)构建新的测试集(3)多模型的处理(4)最终的训练与预测三、实现一、超参数优化可以分为参数优化和超参数优化。其中,可学习的参数通过优化算法可以进行优化;还有一类参数是用来定义模型结构或优化策略的,这类参数称为超参数...

2019-04-15 21:43:36 394

原创 集成学习(ensemble learning)(三)

集成学习系列第三篇(Boosting相关方法),传送前两篇:集成学习(ensemble learning)(一)集成学习(ensemble learning)(二)文章目录一、一、

2019-04-14 21:10:53 509

原创 【数据竞赛】“达观杯”文本智能处理挑战赛5

一、LightGBM模型1、XGBoost缺点每轮迭代时,都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小;如果不装进内存,反复地读写训练数据又会消耗非常大的时间。预排序方法(pre-sorted):首先,空间消耗大。这样的算法需要保存数据的特征值,还保存了特征排序的结果(例如排序后的索引,为了后续快速的计算分割点),这里需要消耗训练数据两倍的内存。其次时间上也...

2019-04-13 21:29:40 217

原创 集成学习(ensemble learning)(二)

接上一篇:集成学习(ensemble learning)。本篇对集成学习中的 Bagging 和 随机森林算法 进行总结。一、Bagging原理Bagging 的弱学习器之间没有依赖关系,可以并行计算。1、随机采样(BootStrap)自助法,即有放回的采样,也就是说,之前采集到的样本在放回后有可能继续被采集到。一般来讲,随机采样的样本数量和训练集样本数量一致为m,但是两者内容不同。若...

2019-04-13 15:19:24 820

原创 【爬虫】Scrapy爬取腾讯社招信息

目标任务:爬取腾讯社招信息,需要爬取的内容为:职位名称,职位的详情链接,职位类别,招聘人数,工作地点,发布时间。一、预备基础1、Scrapy简介Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛,可用于数据挖掘、监测和自动化测试。Scrapy 使用了 Twisted 异步网络库来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,...

2019-04-12 23:31:00 1087 1

原创 集成学习(ensemble learning)(一)

集成学习(ensemble learning)不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域都可以看到集成学习的身影。一、集成学习概述基本思想:对于训练集数据,我们通过训练若干个个体学习器,通过一定的结合策略,就可以最终形成一个强学习器。http://www.c...

2019-04-12 11:26:32 559

原创 【数据竞赛】“达观杯”文本智能处理挑战赛4

一、逻辑回归逻辑回归(Logistic Regression, LR)是一种常用的处理两类分类问题的线性模型。1、概率估计LR 模型计算输入特征的加权和(加上偏差项),之后将中间结果输入 logistic() 函数进行二次加工后输出。逻辑回归模型的概率估计(向量形式)p^=hθ(x)=σ(θT⋅x)\hat{p}=h_\theta(x)=\sigma(\theta^T·x)p^​=hθ​...

2019-04-11 21:32:35 163

原创 【数据竞赛】“达观杯”文本智能处理挑战赛3

学习word2vec词向量原理并实践,用来表示文本要求:分享学习笔记和代码,【只有代码的等于没有完成】参考资料1)CS224:https://www.bilibili.com/video/av41393758/?p=22)https://github.com/Heitao5200/DGB/blob/master/feature/feature_code/train_word2vec.py...

2019-04-09 20:28:23 738

原创 【工具】镜像源

一、pip国内源:豆瓣:http://pypi.douban.com/simple/清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学:http://pypi....

2019-04-08 21:45:19 180

原创 【数据竞赛】“达观杯”文本智能处理挑战赛2

文章目录一、TF_IDF原理1、TF(item frequency)2、逆向文件频率IDF(inverse document frequency)3、TF-IDF二、TF-IDF算法实现1、方法一2、方法二三、达观实践一、TF_IDF原理TF-IDF(Term Frequency - Inverse Document Frequency,词频-逆文本频率)。TF-IDF是一种统计方法,用以评...

2019-04-06 15:30:20 348

原创 【数据竞赛】“达观杯”文本智能处理挑战赛1

一、数据竞赛简介“达观杯”文本智能处理挑战赛1、任务建立模型通过长文本数据正文(article),预测文本对应的类别(class)2、数据传送门:链接: https://pan.baidu.com/s/11AOOn0xlv0TZjGeFfRc3Rw 提取码: 58r9数据包含2个csv文件:train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词...

2019-04-05 13:06:31 544

原创 【工具】ubuntu下在百度云文件

文章目录1、安装 Chrome 插件 baiduexporter2、安装 Aria23、下载文件1、安装 Chrome 插件 baiduexporter传送门:链接: https://pan.baidu.com/s/1HEotrEDnHab3Tcj4NRuSBQ 提取码: 4qk9在Chrome浏览器中新开一个Tab,输入以下可以跳转到浏览器的插件管理chrome://extensi...

2019-04-05 10:24:48 804

药材KG数据.rar

药材知识图谱示例数据,实体数据主要有两类,企业类、药材类。

2019-09-05

台湾大学机器学习技法笔记

台湾大学机器学习技法笔记-完整版 回顾一下我们之前介绍了linear classification,对于线性可分的情况,我们可以使用PLA/pocket算法在平面或者 超平面上把正负类分开。

2019-01-21

计算机二级C语言2017年9月 题库

计算机二级C语言2017年9月 题库,免序列号

2017-08-18

OpenCV3编程入门_毛星云编著_电子工业出版 第二部分

OpenCV3编程入门_毛星云编著_电子工业出版 第二部分

2015-11-29

OpenCV3编程入门_毛星云编著_电子工业出版 第一部分

OpenCV3编程入门_毛星云编著_电子工业出版 第一部分

2015-11-29

电磁智能车软件系统的设计与实现

电磁智能车软件系统的设计与实现 中国知网的论文

2015-06-15

ADXL345Protel99+Altium原理图

ADXL345 的Protel99 和 Altium原理图

2015-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除