self_learning
文章平均质量分 77
Loewi大湿
这个作者很懒,什么都没留下…
展开
-
【达观杯】数据竞赛学习篇(一)
【任务1 - 数据初识】下载数据new_data.7z解压后包含2个csv文件:train_set.csv和test_set.csv原文描述:train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列: 第一列是文章的索引(id),第二列是文章正文在“字”级别上的表示,即字符相隔正文(article);第三列是在“词”...原创 2019-04-05 20:08:09 · 597 阅读 · 0 评论 -
【NLP】神经网络基础
文章目录1. 前馈神经网络、网络层数、输入层、隐藏层、输出层、隐藏单元、激活函数的概念。1.1 前馈神经网络(feedforward neural network)1.2 激活函数(Activation Function)1.2.1 weights, bias和activation function的作用1.3 如何形象的解释为什么神经网络层数越多效果越好?2. 感知机相关;利用tensorflo...原创 2019-04-21 21:59:28 · 5876 阅读 · 1 评论 -
【NLP】简单神经网络
文本表示:从one-hot到word2vec。1.1 词袋模型:离散、高维、稀疏。1.2 分布式表示:连续、低维、稠密。word2vec词向量原理并实践,用来表示文本。awaiting…...原创 2019-04-21 22:31:54 · 259 阅读 · 0 评论 -
【NLP】SVM
1. SVM的原理2. SVM应用场景3. SVM优缺点4. SVM sklearn 参数学习5. 利用SVM模型结合 Tf-idf 算法进行文本分类原创 2019-04-17 21:59:21 · 650 阅读 · 0 评论 -
【timeit】使用python中计时器Timer来计算
timeit — Measure execution time of small code snippetsclass timeit.Timer(stmt='pass', setup='pass', timer=<timer function>, globals=None)To measure the execution time of the first statement, u...原创 2019-04-15 11:04:48 · 761 阅读 · 0 评论 -
【NLP】循环神经网络基础
文章目录RNNSequence DataSequential memeryBackpropagation Through Time (BPTT)Vanishing GradientLSTM and GRURNNSequence Data参考一个球放在桌面,你要猜它往哪边滚,如果什么信息都没有,只能随机猜。但如果告诉你球之前的运动轨迹,就可以预测,球往哪边滚。Sequence da...原创 2019-04-27 21:52:45 · 381 阅读 · 0 评论 -
【NLP】latent Dirichlet allocation
1.LDA主题模型原理下面几句话:I like to eat broccoli and bananas.I ate a banana and spinach smoothie for breakfast.Chinchillas and kittens are cute.My sister adopted a kitten yesterday.Look at this cute hams...原创 2019-04-20 12:17:40 · 289 阅读 · 0 评论 -
【初级算法梳理】逻辑回归
Logistic Regression1. 逻辑回归与线性回归的联系与区别2. 逻辑回归的原理3. 逻辑回归损失函数推导及优化4. 正则化与模型评估指标5. 逻辑回归的优缺点6.样本不均衡问题解决办法7. sklearn参数1. 逻辑回归与线性回归的联系与区别awaiting2. 逻辑回归的原理3. 逻辑回归损失函数推导及优化4. 正则化与模型评估指标5. 逻辑回归的优缺点6.样本不...原创 2019-05-13 20:46:42 · 213 阅读 · 0 评论 -
【初级算法梳理】机器学习的基本概念与线性回归
文章目录1. 基本概念:1.1 Supervised Learning and Unsupervised Learning1.2 Generalization1.3 Underfitting and Overfitting- Variance and Biasa) High Biasb) High Variance1.4 Validation1.4.1 Train/Test split or Ho...原创 2019-05-11 02:39:06 · 316 阅读 · 0 评论 -
【NLP】卷积神经网络基础
卷积神经网络基础1. Convolution Layer1.1 Parameters:- Kernel- Stride- Padding- Same Padding- Valid Padding1.2 Do the math:· multiply, then add up:· then divide2. Transposed Convolutions3. Pooling Layer3.1 max ...原创 2019-04-25 22:00:53 · 1026 阅读 · 0 评论 -
【NLP】互信息
【任务4 -文本表示】TF-IDF原理。文本矩阵化,使用词袋模型,以TF-IDF特征值为权重。(可以使用Python中TfidfTransformer库)互信息的原理。使用第二步生成的特征矩阵,利用互信息进行特征筛选。互信息互信息是衡量两个随机变量的相关性,也就是一个随机变量中包含的关于另一个随机变量的信息量,所谓的随机变量,即随机试验结果的量的表示,可以简单理解为按照一个概率分...原创 2019-04-13 22:30:48 · 1092 阅读 · 0 评论 -
【达观杯】数据竞赛学习篇(五)lightBGM
LightGBM是个快速的,分布式的,高性能的基于决策树算法的梯度提升框架。可用于排序,分类,回归以及很多其他的机器学习任务中。没看安装指南就pip install后,会显示错误Mac的安装显示错误后的解决办法1.pip uninstall lightGBM2.根据github上的提示一步步执行3. pip3 install lightGBM 后仍报错,但此错误有提示,按照提示执行bre...原创 2019-04-13 22:02:15 · 1035 阅读 · 0 评论 -
【达观杯】数据竞赛学习篇(二)
【任务2 - 学习TF-IDF理论并实践,使用TF-IDF表示文本】TF-IDF复习TFIDF–short for term frequency–inverse document frequency, is a numerical statistic that is intended to reflect how important a word is to a document in a ...原创 2019-04-06 21:21:01 · 131 阅读 · 0 评论 -
【达观杯】数据竞赛学习篇(四)LR & SVM
Support Vector Machine (SVM) is an algorithm used for classification problems similar to Logistic Regression (LR). LR and SVM with linear Kernel generally perform comparably in practice.LogisticReg...原创 2019-04-11 21:38:15 · 161 阅读 · 0 评论 -
【NLP】特征提取
【任务3 - 特征提取】基本文本处理技能1.1 分词的概念(分词的正向最大、逆向最大、双向最大匹配法);1.2 词、字符频率统计;(可以使用Python中的collections.Counter模块,也可以自己寻找其他好用的库)2.1 语言模型中unigram、bigram、trigram的概念;2.2 unigram、bigram频率统计;(可以使用Python中的collectio...原创 2019-04-11 21:51:13 · 2709 阅读 · 0 评论 -
【达观杯】数据竞赛学习篇(六)模型调优
1)进一步通过网格搜索法对3个模型进行调优(用5000条数据,调参时采用五折交叉验证的方式),并进行模型评估,展示代码的运行结果。(可以尝试使用其他模型)2)模型融合,模型融合方式任意,并结合之前的任务给出你的最优结果。例如Stacking融合,用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分结果。结果展示如下表:模型最优参数F1评分...原创 2019-04-15 20:40:25 · 183 阅读 · 0 评论 -
【NLP】朴素贝叶斯
【任务5 -传统机器学习–朴素贝叶斯 】1. 朴素贝叶斯贝叶斯:贝叶斯定理旨在计算P(A|B)的值,也就是在已知B发生的条件下,A发生的概率是多少。大多数情况下,B是被观察事件,比如“昨天下雨了”,A为预测结果“今天会下雨”。对数据挖掘来说,B通常是观察样本个体,A为被预测个体所属类别。所以,说简单一点,贝叶斯就是计算的是:B是A类别的概率。贝叶斯公式:P(A∣B)=P(A)P(B∣A)...原创 2019-04-15 21:15:38 · 814 阅读 · 0 评论 -
【Pandas】pandas.Series.value_counts的使用
语法:Series.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)[source]Return a Series containing counts of unique values.The resulting object will be in descending ord...原创 2019-04-09 14:37:30 · 2573 阅读 · 0 评论 -
【达观杯】数据竞赛学习篇(三)
Convert the text into numerical feature vectors.– Word Embedding(Word2Vec)The word2vec algorithms include skip-gram and CBOW models, using either hierarchical softmax or negative sampling: Tomas Mik...原创 2019-04-09 21:04:24 · 178 阅读 · 0 评论 -
【NLP】IMDB和THUCNews数据集的探索
数据集下载探索模块:IMDB数据集(英文)和THUCNews数据集(中文)THUCNews中文数据集:https://pan.baidu.com/s/1hugrfRu 密码:qfud下载后为四个文件,cnews.train.txt、cnews.val.txt、cnews.test.txt、cnews.vocab.txtIMDB英文数据集: IMDB数据集 Sentiment Analy...原创 2019-04-09 21:30:39 · 585 阅读 · 0 评论 -
【初级算法梳理】决策树
决策树1. 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)2. 决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景3. 回归树原理4. 决策树防止过拟合手段5. 模型评估6. sklearn参数详解,Python绘制决策树1. 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)awaiting2. 决策树的不同分类算法(ID3算法、C4.5、CART分类...原创 2019-05-15 22:14:25 · 225 阅读 · 0 评论