自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 资源 (1)
  • 收藏
  • 关注

原创 Datawhale | 自然语言处理(8)——神经网络

文章目录一. 神经网络基础概念1. 网络结构1.1 前馈网络1.2 反馈网络1.3 图网络2. 前馈神经网络二. 感知机(perceptron)1. 定义2. 学习策略3. 学习算法三. 激活函数1. 激活函数性质2.常见的激活函数2.1 Sigmoid 型激活函数2.11 Logistic 函数2.12 Tanh 函数2.2 修正线性单元 (ReLU)2.3 Maxout 单元四. 深度学习中的...

2019-04-21 23:09:45 977

原创 Datawhale | 自然语言处理(7)——主题模型

写在前面:本文只是简要的介绍了一下LDA模型的概念和一些整体上的认识,没有涉及到具体的公式推导,目前只是按照助教的建议大致梳理一下,后期肯定还要花大时间推导公式仔细理解该模型,感兴趣的可以参考后面的博客,总结的很详细,看完后受益匪浅。文章目录一. PlSA模型1. 概念2.概率图模型二. 共轭先验分布1. 基本概率分布2. 共轭分布三. LDA主题模型1.原理2.学习步骤3.应用场景4.优缺点...

2019-04-19 21:43:16 330

原创 Datawhale | 自然语言处理(6)——SVM

写在前面:svm我之前的博客已经总结过了,这里就不在赘述了,直接附上链接,这篇博客只放我跑的代码的部分,请见谅。文章目录一.SVM算法二. 利用SVM结合 Tf-idf 算法进行文本分类1. 读取数据2.使用TF-IDF将文本数据编码3.SVM建模一.SVM算法https://blog.csdn.net/orient928/article/details/89220862二. 利用SV...

2019-04-18 10:57:43 216

原创 数据竞赛达观杯(6)——模型融合

文章目录一. 网格搜索(Grid Search)1. 概述2.弊端二. 交叉验证三. 模型融合一. 网格搜索(Grid Search)1. 概述网格搜索是一种调参手段,是一种穷举搜索,在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果。其原理就像是在数组里找最大值。通俗的来说就是把所有参数组合的可能性都试一遍,然后找到性能最好的参数组合。2.弊端耗时...

2019-04-16 11:16:56 293

原创 Datawhale | 自然语言处理(5)——朴素贝叶斯

写在前面:身体极度不适,所以就随便粘了点东西上来,助教可以不用看了,等明天身体恢复一点在重新写一遍,抱歉!文章目录一. 朴素贝叶斯的原理二. 朴素贝叶斯应用场景三. 朴素贝叶斯优缺点1.优点2.缺点四. 利用朴素贝叶斯模型结合 Tf-idf 算法进行文本分类一. 朴素贝叶斯的原理基于朴素贝叶斯公式,比较出后验概率的最大值来进行分类,后验概率的计算是由先验概率与类条件概率的乘积得出,先验概率...

2019-04-15 21:15:26 238

原创 数据竞赛达观杯(5)——LightGBM

文章目录一. LightGBM模型1.GBDT存在的几个问题1.1 如何减少数据量1.2 如何减少特征1.3 关于稀疏的数据2. 引入LightGBM2.1 优点2.2 特点二. lightGBM调参三. lightGBM模型实践一. LightGBM模型1.GBDT存在的几个问题1.1 如何减少数据量常用的减少训练数据量的方式是down sample。例如权重小于阈值的数据会被过滤掉,...

2019-04-13 22:05:31 297

原创 Datawhale | 自然语言处理(4)——中文文本挖掘预处理

写在前面:这两天看了下cs224N 和 吴军博士的《数学之美》,算是对 NLP 有了一个初步的认识,这篇文章并不是完全按照助教给的框架来写的,其中也尝试了实际操作,但是过程中出现了很多意想不到的错误,由于还没有解决,所以这里就不粘代码实现的部分了,助教请见谅!文章目录一. 概念介绍1.词袋模型(Bag of Words)2.停用词(Stop Words)3.TF-IDF模型3.1 词频(TF)...

2019-04-13 21:30:42 867

原创 数据竞赛达观杯(4)——LR和SVM

写在前面:逻辑回归我之前专门写过一篇博客,所以这里直接放链接了,SVM内容还挺多的,这里毕竟是关于实战的博客,不是很适合大幅内容来描述算法原理,所以这里就大概的描述一下SVM的原理是什么,之后会专门写一篇博客来介绍SVM,所以这里就请助教见谅了!文章目录一. 逻辑回归(LR)二. 支持向量机(SVM)三. 实战3.1 LR模型3.2 SVM 模型一. 逻辑回归(LR)这部分内容我之前上初级...

2019-04-11 21:45:43 248

原创 Datawhale | 自然语言和处理(3)

写在前面:由于是初次接触NLP,对这方面没有什么自己的见解,所以都是按照助教给的框架来总结,目前也在学习stanford的cs224N,也打算之后再开一个分类专门学习cs224N,希望自己能够在NLP这条路上越走越远!文章目录一.基本文本处理技能1.分词1.1 概述1.2 正向最大匹配法(forward maximum matching method,FMM)1.3 逆向最大匹配法(back...

2019-04-11 21:17:58 441

原创 python基础(6)

写在前面:使用pycharm安装turtle库时安装失败,看了错误提示后发现turtle只能安装在python2中,由于实验室的台式机中只有python3.7,于是就笔记本上的anaconda新建了一个python2的环境,最终成功跑出了佩奇~由此可见anaconda在配置新环境和安装外界库这方面还是很方便的。由于时间原因没有仔细研究turtle库里的函数,只是把别人的代码复制过来跑了一遍,请见...

2019-04-11 17:08:06 137

原创 高级算法(3)——XGBoost

文章目录1. 算法原理2. 损失函数3.分裂结点算法4.正则化5.对缺失值的处理6.优缺点6.1优点:6.2缺点:7.应用场景1. 算法原理XGBoost是boosting算法的其中一种。Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。因为XGBoost是一种提升树模型,所以它是将许多树模型集成在一起,形成一个很强的分类器。而所用到的树模型则是CART回归树模型.XG...

2019-04-10 21:58:59 511

原创 Datawhale | 自然语言处理(2)

文章目录一. THUCNews中文数据集1.1 数据下载1.2 数据探索二. IMDB英文数据集2.1 数据下载2.2 数据探索三. 常用评估方式3.1 混淆矩阵一. THUCNews中文数据集THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。在原始新浪新闻分类体系的基础上,重新整合划...

2019-04-09 22:10:15 501

原创 数据竞赛达观杯(3)——word2vec

文章目录一. word2vec原理概述1.CBOW(Continuous Bag-of-Word Model)2.skip-gram二. Python实现1. Word2vec( )参数详解2.代码详解一. word2vec原理概述在自然语言处理的任务中,无论哪种算法都需要将文本形态的词转换成为向量形式的词向量(word embedding)。良好的词向量可以达到语义相近的词在词向量空间里聚...

2019-04-09 21:14:51 361

原创 python基础(5)

写在前面:这部分的内容我之前没有看过,所以这次就按照助教给的框架来梳理,后期有时间重新回顾这部分内容时,如果有新的内容或感悟会在添加进来,谢谢!文章目录一. File1.1 打开文件方式1.11 文件打开方式open方法1.12 文件读取方式read/readline/readlines1.13 文件写入方式write/writelines1.2文件对象的操作方法1.3 csv文件操作1.4 ...

2019-04-09 20:42:30 154

原创 数据竞赛达观杯(2)——TF-IDF

文章目录一. TF-IDF1.1 定义1.2 算法步骤二. 算法实现2.1 直接用 TfidfVectorizer 完成向量化与TF-IDF预处理2.2 使用CountVectorizer类向量化之后,再调用TfidfTransformer类进行预处理。一. TF-IDF1.1 定义TF-IDF(Term Frequency-Inverse DocumentFrequency, 词频-...

2019-04-07 21:34:11 205

原创 高级算法(2)

写在前面:由于时间原因这次就是按照助教给的框架来写的,并不是完全按照自己的理解来的,后期有时间可能会按照自己的框架重新梳理一遍 GBDT。文章目录一. 前向分布算法二. 负梯度拟合三.损失函数3.1 分类算法3.2 回归算法四. 回归五. 二分类,多分类六. 正则化七. 优缺点7.1 优点7.2 缺点八.应用场景一. 前向分布算法从前向后,每一步只学习一个基函数及其系数,逐步逼近上式,即...

2019-04-07 20:34:34 559

原创 Datawhale |自然语言处理(1)

写在前面:这是NLP班的第一次作业,只要就是安装软件,配置环境之类的,由于之前已经配置过环境,所以这里就把以前写的博客的部分内容拿出来,可能不是完全按照群里给的框架来写的,请见谅!文章目录1. Anaconda 概述2. Anaconda 优势3. Pycharm4. Python安装第三方库的方法1. Anaconda 概述Anaconda 和 Jupyter notebook已经成为...

2019-04-07 14:51:44 194

原创 Mysql(4)

写在前面:时间原因没有实际操作,博客里内容都是抄的,助教不要看了,谢谢。后期有时间一定补上。文章目录项目七项目八项目九项目十项目十一项目七-- CREATE TABLE Employee(-- Id INT NOT NULL PRIMARY KEY AUTO_INCREMENT,-- Name VARCHAR(10) NOT NULL,-- Salary IN...

2019-04-06 21:51:02 116

原创 python基础(4)

写在前面:由于之前有一定的编程基础,所以对python也有一定的理解,所以这篇博客并不是完全按照给的框架来写的,临时有点事,所以后期写的有点粗糙,请见谅,希望后期有时间来优化。文章目录一. 变量和对象1.变量和对象2.python中的赋值“=”3.list复制4. id(),==,is的差别5.动态类型机制二. 函数1.定义2. 定义一个函数3.参数3. 1 参数类型3.2 参数传递4.作用...

2019-04-06 21:13:31 222

原创 数据竞赛达观杯(1)

写在前面:由于个人原因导致昨晚没有按时交作业,感谢管理员的不请之恩,之后一定按时完成,已此为记!文章目录一.读取数据二.将训练集拆分为训练集和验证集一.读取数据import numpy as npimport pandas as pdtraining = pd.read_csv("../new_data/train_set.csv")print(training.head())...

2019-04-06 08:32:21 258

原创 Python基础(3)

写在前面:字典,集合等数据结构在前面那篇博客已经总结过了,这里就不叙述了,今天就简单介绍些下面的内容,等后期时间允许再把这篇博客和前面的总结在一起。文章目录一. 判断语句1.单条件判断语句2.多重判断二. 三目表达式1. 为真时的结果 if 判断条件 else 为假时的结果2. numpy的where(判断条件,为真时的处理,为假时的处理)三. 循环语句1.for循环2. while循环一....

2019-04-05 17:17:02 97

原创 Mysql 第三次作业

写在前面:贪心报了好几个班,没有时间实际操作了,所以这篇博客就是一些知识点的粘贴,后期会单独出一个博客写Mysql班所有项目的代码,请见谅。文章目录一.表操作1. MySQL表数据类型1.1字符串类型:CHAR、TEXT1.2 数值类型1.3 日期和时间类型1.4二进制类型2. 用SQL语句创建表2.1.创建语句语法2. 2. 语句解释2.3一些设定3. 用SQL语句向表中添加数据3.1添加一...

2019-04-05 11:25:57 235

原创 高级算法(1)——随机森林

写在前面:由于想在暑期实习之前多学点东西,所以贪心基本上把Datawhale感兴趣的班都给报了,导致现在压力贼大,所以本文很多复杂公式就用图片代替了,另外也没有真正打代码,等后期课程轻松一点以后再把代码那部分补上。集成学习这一块我之前也稍微总结过,所以这一块也不全是按照群里给的框架写的,请见谅。文章目录一.集成学习1.定义:2.作用:3.基学习器4. 两类集成学习4.1 Boosting4.2...

2019-04-04 20:05:46 727

原创 跑步随想

最近看了热血运动番“强风吹拂”,顿时又回忆起了考研期间和小伙伴么每天晚上上完自习去操场跑几圈,然后一起去超市买水,一边打闹一边回出租屋的情景,恍惚之间我已经研二了,以前无话不谈的朋友也已经好久没有联系了,可能这就是大城市的生活吧,时刻处在什么都不会的焦虑之中,节奏快到你都已经忘了上次跟以前好友联系是什么时候了。其实我是个运动细胞极度匮乏的一个人,足球,羽毛球之类的虽然也玩过,但是并没有十分狂热,...

2019-04-04 11:12:51 326

原创 Markdown 编辑器小白使用指南

写在前面:这篇博客只是我把平时我用到的markdown的一些常用的功能给列了出来,不是很全,后期会不定期更新。文章目录1.目录索引2.添加标题3.改变字体颜色和尺寸1.目录索引这是个我觉得很实用,只要打几个字母就可以自动把标题生成目录,只需要在文章最前面打上 [toc] 即可,注意 [toc] 必须前后各空一行这个语法才能生效。还有一点要注意的是像我这种有”写在前面“这种话的时候就需要把 ...

2019-04-04 10:12:43 162

原创 初级算法班(3)—决策树

写在前面:由于连续报了几个班,加上实验室老师催着写专利,没有时间亲自打代码,就按照群里给的大纲从网上找了一些信息直接po出来,同样由于时间问题没有手打公式,仍然是图片,后期有时间会尽量把公式打出来并亲自实操下sklearn来优化该博客。文章目录一. 信息论基础1.熵2.联合熵3.条件熵4.信息增益5.基尼不纯度6.小结二. 决策树的不同分类算法1.ID3算法2.C4.5算法3.CART算法三. ...

2019-04-03 21:13:39 294

原创 python基础(2)

文章目录python基本数据类型1.综述2. Number 类型3. String 类型4. List 类型5. Tuple 类型6.Dictionary 类型7. Set 类型8. 数据结构总结python基本数据类型1.综述python里面共有六大标准数据类型,其中不可变的数据类型有 Number,String,Tuple三种,可变的数据类型为 List, Dictionary ,Set...

2019-04-03 19:41:23 250

原创 Mysql第二次作业

写在前面:今天被老师拉着做了一天的实验,实在没有时间做作业,就把网上找的答案po出来,回答任务中的问题,等后期有时间亲自打一下代码以后在优化该篇博客。文章目录一. 语句1. 查询语句 SELECT FROM2.去重语句3.前N个语句4.CASE…END判断语句5.筛选语句 WHERE6.分组语句 GROUP BY7.HAVING子句8.排序语句 ORDER BY二. 函数1.时间函数2.数值函...

2019-04-02 21:10:25 143

原创 初级算法班(2) ——逻辑回归

写在前面:由于昨天实验室毕业聚餐,和老师师兄们喝酒耽误了一天,所以没有太多的时间仔细梳理一下逻辑回归,这里就把我以前的笔记 po 出来,由于时间不够,所以公式就没有自己手打,全是图片,等后期有时间后再来优化这篇博客,按自己的理解梳理整个算法,并把公式全部打出来。文章目录逻辑回归1. 逻辑回归模型2. 逻辑回归损失函数2.1 推导2.2 优化3. 优化算法4. 逻辑回归和线性回归的联系和区别4....

2019-04-01 21:51:31 333

原创 Python基础(1)

写在前面:由于之前学过一段时间的C++,所以也不算是零基础,所以就没有按照群里面的大纲来写这篇博客,只是把我个人感觉比较重要的内容写了出来,目前是想到哪里写哪里,后期如果有什么新的发现也会加到这篇博客里。文章目录一. Anaconda 和 Pycharm1. Anaconda 概述2. Anaconda 优势3. Pycharm4. Python安装第三方库的方法二. Python 基础讲...

2019-04-01 19:58:38 720

原创 Mysql班第一次作业

写在前面:第一次使用csdn的markdo编辑器,只是会使用他的一些基本功能,等后续熟悉他的其他操作后希望能够使整个页面看起来更有条理。另外这个博客只是datawhale的mysql班的作业,对mysql没有一个整体的认识,只是把群里面提出来的问题答案po了出来,等之后系统的学完数据库的之后在按自己的理解把mysql的知识重新梳理一遍。一. 数据库基本知识1.数据库定义数据库是以一定方式储存...

2019-03-31 16:33:13 338

原创 初级算法班(1)——机器学习相关概念

写在前面:这是初级算法版第一次作业的第二部分,同样由于时间原因准备的不充分,使用的是csdn的富文本编辑器,今天结束后会熟悉一下Markdown编辑器,希望下次至少在格式上有所改进。一.有监督学习1) 从有标记的训练数据中推导出预测函数2) 有标记的训练数据是指每个训练实例都包括输入和期望的输出3) 常用来做分类和回归4)例子:老师给你一份有答案的习题集让你去训练,学完之后...

2019-03-29 21:35:19 257

原创 初级算法班(1) ——优化算法和线性回归

写在前面: 本次作业分为两个博客来提交的,由于提前没有熟悉csdn的Markdown语法,所以有的公式就没有自己打出来,标题也不是很规范,有的部分就用图片来代替,下次提交作业尽量使用Markdown方法,让博客至少从格式上看着比较舒服。一. 最小二乘法1).使误差平方和达到最小以寻求估计值的方法,就叫做最小二乘法,也可以叫做最小二乘准则,求解最小二乘准则的方法就是狭义上的最小二...

2019-03-29 21:17:14 706

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除