自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 NLP task_4

朴素贝叶斯原理朴素贝叶斯(naive Bayes)算法是有监督的学习算法,解决的是分类问题,如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的特征独立性和连续变量的正态性假设为前提,就会导致算法精度在某种程度上受影响。贝叶斯方法把计算 “具有某特征的条件下属于某类” 的概率...

2019-08-13 15:39:20 119

原创 GBDT

title: GBDT算法梳理date: 2019-08-08 14:32:27categories: 机器学习tags:集成学习GBDTGradient Boostingsklearndescription: DataWhale暑期学习小组-高级算法梳理第八期Task2。GBDT(Gradient Boosting Decision Tree)是一种可用于处理分类(cl...

2019-08-09 17:54:42 166

原创 NLP task_2

基本文本处理能力1. 文本分词概念文本分词,即将长文本分成各种词,以便我们进一步的统计并分析。分词需要遵循几个基本法则:1、颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“公安局长”可以分为“公安 局长”、“公安局 长”、“公安局长”都算对,但是要用于语义分析,则“公安局长”的分词结果最好(当然前提是所使用的词典中有这个词)...

2019-08-09 17:18:58 221

原创 随机森林算法梳理

集成学习的概念集成学习(ensemble learning)指的是,我们采用多个弱学习进行学习,来替代用一个单一的精密的高效能的学习器对数据进行学习,并且通过一定的手段将这些弱学习器的结果进行整合来完成学习任务的方法,有时也被称为多分类系统(multi-classifier system)、基于委员会的学习(committee-based learning)等。集成学习通过将多个弱学习器进行结...

2019-08-07 15:27:57 376

原创 NLP基础教程task_1

NLP 学习 task1_21.IMDB数据下载2.数据探索3.将整数转换为字词4.数据准备one-hot数组填充5.模型构建6.数据创建及建模模型训练评估模型创建准确率和损失随时间变化的图1.IMDB数据下载下载IMDB数据集,由tensorflow自带,这个数据集已经进行了预处理,即将影评的字词顺序作为特征,每个整数代表字典中的一个特定字词。imdb = keras.datasets.i...

2019-08-07 00:55:14 209

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除