AngelaOrange-CSDN博客

原创莫同老师数据挖掘课（九）频繁模式挖掘进阶与关联规则

一、频繁序列挖掘1、序列数据带有序列特性的数据，如先上小学，再上初中。序列数据库序列<eg(af)cbc>意思是顾客有时序上的6次购买操作，第3次购买操作中买了af两件商品。子集的概念：subsequence频繁序列挖掘序列模式给定支持度阈值，超过阈值的认为是发现了一个序列模式基本性质：apriori如果序列s不频繁那么s的所有超序列都不是频繁的...

2019-04-25 16:10:26 394

转载 DataWhale NLP 打卡（八）神经网络基础

本篇为转载Datawhale小组其他小伙伴的博客原文链接：https://blog.csdn.net/tulingmenghuan/article/details/89424772原作者：拒绝甜食目录1.前馈神经网络、网络层数、输入层、隐藏层、输出层、隐藏单元、激活函数的概念1.1前馈神经网络1.2神经网络的网络结构神经元神经网络模型1.3激活函数1.3.1Si...

2019-04-21 21:58:21 641

转载 DataWhale NLP 打卡（七）LDA主题模型

本篇为转载原作者：我想听相声原文链接：https://blog.csdn.net/weixin_42483560/article/details/89401423理解LDA，可以分为下述5个步骤：1）一个函数：gamma函数2）四个分布：二项分布、多项分布、beta分布、Dirichlet分布3）一个概念和一个理念：共轭先验和贝叶斯框架4）两个模型：pLSA、LDA5）一个采样：G...

2019-04-19 21:01:00 349

转载 DataWhale NLP 打卡（六）SVM支持向量机

1、SVM的原理间隔与支持向量给定训练样本集D = {(x1, y1), (x2, y2),…,(xm, ym)}, yi∈{-1， +1}，分类学习中最基本的思路就是基于训练集D在样本空间里找到一个划分超平面，将不同类别的样本分开，但是可以将样本分开的划分超平面可能有很多。在这么多的超平面中，如何选择最合适的呢？什么标准又是最合适的呢？在样本空间中，划分超平面可通过如下线性方程来描述：...

2019-04-19 20:52:47 175

转载【NLP数据竞赛】“达观杯”文本智能处理挑战赛（六）模型调优

一、网格搜索网格搜索（Grid Search）用简答的话来说就是手动的给出一个模型中你想要改动的所用的参数，程序自动的帮你使用穷举法来将所用的参数都运行一遍。决策树中我们常常将最大树深作为需要调节的参数； K次验证：二、模型调优与参数融合选择均匀融合，调参结果为：模型最优参数 F1评分LR C=10, max_iter=20 0.713SVM C...

2019-04-16 08:51:31 246

转载 DataWhale NLP 打卡（五）朴素贝叶斯

朴素贝叶斯（naive bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法。优点：在数据较少的情况下仍然有效，可以处理多分类问题。缺点：对入输入数据的准备方式较为敏感。使用数据类型：标称型数据。下面从一个简单问题出发，介绍怎么使用朴素贝叶斯解决分类问题。一天，老师问了个问题，只根据头发和声音怎么判断一位同学的性别。为了解决这个问题，同学们马上简单的统计了7位同学的相关特征，数据...

2019-04-15 22:06:25 206

转载初学者如何查阅自然语言处理（NLP）领域学术会议

本篇为转载原文地址：http://blog.sina.com.cn/s/blog_574a437f01019poo.html 　　转载地址：https://blog.csdn.net/sinat_29694963/article/details/80591123本文介绍自然语言处理(Natural Language Processing, NLP)领域的一些国内外著名会议和期刊。自然语言处...

2019-04-15 16:09:03 333

转载【NLP数据竞赛】“达观杯”文本智能处理挑战赛（五）LightGBM模型

一. 简介1.1. 什么是LightGBMLightGBM是个快速的、分布式的、高性能的基于决策树算法的梯度提升框架。可用于排序、分类、回归以及很多其他的机器学习任务中。　　因为他是基于决策树算法的，它采用最优的leaf-wise策略分裂叶子节点，然而其它的提升算法分裂树一般采用的是depth-wise或者level-wise而不是leaf-wise。因此，在LightGBM算法中，当...

2019-04-13 21:59:50 673 3

转载 DataWhale NLP 打卡（四）文本表示

TF-IDF原理 TF-IDF 是一个统计方法，用来评估某个词语对于一个文件集或文档库中的其中一份文件的重要程度。词频 TF计算了一个单词在文档中出现的次数，它认为一个单词的重要性和它在文档中出现的次数呈正比。逆向文档频率 IDF，是指一个单词在文档中的区分度。它认为一个单词出现在的文档数越少，就越能通过这个单词把该文档和其他文档区分开。IDF 越大就代表该单词的区分度越大。...

2019-04-13 21:49:36 200

转载【NLP数据竞赛】“达观杯”文本智能处理挑战赛（四）线性回归LR+支持向量机SVM

一. 理论学习1.逻辑回归（LR）LR在【Datawhale-初级算法梳理】小组中有学习过，笔记见此处2.支持向量机(SVM)a) 简介支持向量机（support vector machines, SVM）是一种二类分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；支持向量机还包括核技巧，这使它成为实质上的非线性分类器。SVM的的学习策略...

2019-04-11 22:13:28 214

转载 DataWhale NLP 打卡（三）特征提取

1. 基本文本处理技能尽管现在很多文本处理采用基于字/字符的方式，词作为能够独立语用的基本语言单位，依然是目前是主流的NLP任务的基本处理单位。对于没有间隔符的汉语，分词就成了文本预处理的第一个任务。汉语分词，现在其实已经有大量的开源工具，比如最常用的jieba, Stanford NLP，THULAC以及最近开源的pkuseg。宗成庆老师的书里对于分词难度总结为三个方面：分词规范，歧义切...

2019-04-11 22:07:13 175

算法原理XGBoost（eXtreme Gradient Boosting）是工业界逐渐风靡的基于GradientBoosting算法的一个优化的版本，可以给预测模型带来能力的提升。其算法思想就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落...

2019-04-10 21:54:24 908

转载【NLP数据竞赛】“达观杯”文本智能处理挑战赛（二）word2vec词嵌入

word2vec原理用词向量来表示词并不是word2vec的首创，在很久之前就出现了。最早的词向量是很冗长的，它使用是词向量维度大小为整个词汇表的大小，对于每个具体的词汇表中的词，将对应的位置置为1。比如我们有下面的5个词组成的词汇表，词"Queen"的序号为2，那么它的词向量就是(0,1,0,0,0)(0,1,0,0,0)。同样的道理，词"Woman"的词向量就是(0,0,0,1,0)(0...

2019-04-09 21:57:40 250

转载 DataWhale NLP 打卡（二）模型的评估指标：Precision、Recall、ROC、AUC、P-R曲线

分类模型评估指标描述 Scikit-learn函数 Precision 精准度 from sklearn.metrics import precision_score Recall 召回率 from sklearn.metrics import recall_score F1 F1值 from sklearn.metrics i...

2019-04-09 21:48:36 776

原创【NLP数据竞赛】“达观杯”文本智能处理挑战赛（二）TF-IDF学习笔记

一、TF-IDF的主要思想1、计算词频　　词频（TF） = 某个词在文章中的出现次数文章有长短之分，为了便于不同文章的比较,做"词频"标准化。　　词频（TF） =某个词在文章中的出现次数 / 文章总词数或者词频（TF） =某个词在文章中的出现次数 / 拥有最高词频的词的次数2、某个词在文章中的出现次数这时，需要一个语料库（corpus），用来模拟语言的使用环...

2019-04-07 20:16:35 280

转载高级算法梳理（二）GBDT算法

1.GBDT(Gradient Boosting Decision Tree)思想　　Boosting :　　给定初始训练数据，由此训练出第一个基学习器；　　根据基学习器的表现对样本进行调整，在之前学习器做错的样本上投入更多关注；　　用调整后的样本，训练下一个基学习器；　　重复上述过程 T 次，将 T 个学习器加权结合。　　Gradient boosting　　　 Gradi...

2019-04-07 19:26:40 493

原创【NLP数据竞赛】“达观杯”文本智能处理挑战赛（一）数据初识

一、竞赛介绍网址：http://www.dcjingsai.com/common/cmpt/“达观杯”文本智能处理挑战赛_竞赛信息.html任务：建立模型通过长文本数据正文(article)，预测文本对应的类别(class) 数据：包含两个csv文件1、train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列： ...

2019-04-05 20:32:51 505

原创 DataWhale NLP 打卡（一）环境的安装和配置

本次的打卡任务是：Anaconda 安装 Conda 学习 Python编辑器安装与学习：jupyternotebook 或者pycharm Tensorflow 库安装与学习由于在很久很久之前就配置好了相关环境，所以不做过多说明了，直接贴截图，用于打卡。Anaconda:Jupyter notebook:Pycharm:T...

2019-04-05 19:12:19 298

原创 Leetcode打卡（二）Add Two Numbers

You are given twonon-emptylinked lists representing two non-negative integers. The digits are stored inreverse orderand each of their nodes contain a single digit. Add the two numbers and return i...

2019-04-05 16:49:45 153

原创 LeetCode打卡（六）Palindrome Number

Problem:Solution:Approach 1: Revert half of the numberIntuitionThe first idea that comes to mind is to convert the number into string, and check if the string is a palindrome, but this would...

2019-04-05 16:42:02 173

转载高级算法梳理（一）随机森林算法梳理

目录1. 集成学习概念2. 个体学习器概念3. boosting和bagging4. 结合策略(平均法，投票法，学习法)5. 随机森林思想6. 随机森林的推广　　 6.1 extra trees　　6.2 Totally Random Trees Embedding　　6.3 Isolation Forest7. 随机森林的优缺点8. sklear...

2019-04-04 18:56:26 3306 2

原创 LeetCode打卡（五）ZigZag Conversation

Problem:Solution:Code:class Solution { public String convert(String s, int numRows) { if (numRows == 1) return s; StringBuilder ret = new StringBuilder(); int ...

2019-04-04 18:33:32 138

原创 LeetCode打卡（四）Reverse Integer

Problem：Solution：Code:class Solution {public: int reverse(int x) { int rev = 0; while (x != 0) { int pop = x % 10; x /= 10; if (r...

2019-04-03 21:41:46 109

转载算法梳理（三）决策树算法梳理

目录1. 信息论基础（熵联合熵条件熵信息增益基尼不纯度）2.决策树的不同分类算法（ID3算法、C4.5、CART分类树）的原理及应用场景3. 回归树原理4.决策树防止过拟合手段5. 模型评估6. sklearn参数详解，Python绘制决策树1. 信息论基础（熵联合熵条件熵信息增益基尼不纯度）熵：信息是很抽象的概念，一直都无法估计信息量，直到194...

2019-04-03 21:34:59 379

原创 Leetcode打卡（三） Longest Substring Without Repeating Characters

题目：思路：使用一个滑动窗口的思想，使用HashSet来存储子串[i, j].如果j++位置的字符与[i, j]不重复，那么就向右扩展成[i, j+1]如果重复，那么i向右移位，子串更新成[i-1, j]然后继续比较j++与当前的[i,j]是否重复时间复杂度：每个字符最多比较2次，2n，O(n)量级空间复杂度：存储子串public class Solution {...

2019-04-02 21:51:53 105 2

转载算法梳理（二）逻辑回归算法梳理

目录1、逻辑回归与线性回归的联系与区别2、逻辑回归的原理3、逻辑回归损失函数推导及优化4、正则化与模型评估指标5、逻辑回归的优缺点6、样本不均衡问题解决办法7、sklearn参数1、逻辑回归与线性回归的联系与区别联系：逻辑回归与线性回归都属于广义线性回归模型。逻辑回归往往是解决二元0/1分类问题的，之所以叫“回归”因为其本质还是线性回归。可以认为逻辑回...

2019-04-01 21:34:41 796

原创 Leetcode打卡（一）Two Sum

Given an array of integers, returnindicesof the two numbers such that they add up to a specific target.You may assume that each input would haveexactlyone solution, and you may not use thesamee...

2019-03-31 19:09:21 126

转载算法梳理（一）线性回归算法梳理

目录一、机器学习的一些概念1、有监督2、无监督3、泛化能力4、过拟合和欠拟合5、交叉验证二、线性回归的原理三、线性回归的损失函数、代价函数、目标函数1、损失函数2、代价函数3、目标函数四、优化方法1、梯度下降法2、牛顿法3、拟牛顿法五、线性回归的评价指标六、sklearn参数详解一、机器学习的一些概念计算机程序利用经验 E...

2019-03-29 21:06:13 622

原创数据挖掘及应用（莫同老师）—— 课程笔记（六）随机过程与抽样

一、马尔可夫模型马尔可夫性：无后效性。将来的情况与过去的情况无关。下一步的状态只与当前状态有关，而与历史的怎么转移到当前状态的无关。马尔可夫过程：具有马尔可夫性的随机过程。马尔可夫链：时间和状态都是离散的马尔可夫过程。一维随机游动马尔可夫过程：1、状态空间2、转移概率3、当转移概率只与时间间距n有关时，转移概率具有平稳性。称为齐次的或者时齐的。n步转移概率矩阵。反...

2019-03-28 20:01:07 555

原创自然辩证法（任元彪老师）——第六讲

复习题1、古代文明的能源的利用方式是（）A、大自然直接提供人类直接使用答案：A分析：对应PPT第8页中的表格古代文明：直接提供直接使用，不需勘探。不需转化。现代文明：间接提供间接使用，需要勘探，需要转化，煤石油等。间接使用不是指直接烧煤，而是将煤冶炼，炼油，发电等。（现在是现代）后现代文明：直接提供间接使用2、能源利用方式->生产方式->生活方式-...

2019-03-25 18:32:34 991

原创吴恩达深度学习笔记——循环神经网络（RNN）

目录一、为什么使用序列模型（Why sequence models）二、数学符号（Notation）三、循环神经网络（Recurrent neural network）四、通过时间的反向传播（Backpropagation through time）五、不同类型的循环神经网络（Different types of RNNs）六、语言模型和序列生成（Language mode...

2019-03-19 21:22:00 1589

原创吴恩达深度学习笔记——卷积神经网络（CNN）

目录一、计算机视觉（Computer vision）二、边缘检测示例（Edge detection example）三、更多的边缘检测内容（More edge detection）四、Padding五、卷积步长（Strided convolution）六、三维卷积（Convolution over volumes）七、单层卷积网络（One layer of a c...

2019-03-19 18:20:29 2815

原创自然辩证法（任元彪老师）——第五讲

1、关于事实，______A、没有不依赖条件而存在的事实B、非A非CC、事实的存在与否，只关有无，无关其他D、亦A亦C答案：A分析：看上去，天上的雪是白色的。是事实天上的雪是白色的。不是事实，因为色盲看到的可能不是白色的。谁是大多数？我就是大多数？不一定哦需要澄清某个现象存在的条件，一定要交代背景。说清楚坐标原点。2、指出错误选项A、逻辑可能...

2019-03-18 18:53:36 616

原创数据挖掘及应用（莫同老师）—— 课程笔记（四）分类基础

一、特征与分类人类认知事物：分类（有不同之处）关联（有相同之处）特征特征的作用：特征的关键作用——分类已知分类特征，对样本进行归类。已知样本分类，抽取类别特征。人：吃两次苹果就记住了这是苹果，不需要几百万次。如何分类？——学习有指导学习无指导学习二、概率基础数学：现实规律的抽象表述。面对现实问题，找到相应的数学来抽象和解决。...

2019-03-14 19:45:35 273

原创 NLP课程笔记（北大严睿老师）—— 相似度（Similarity）

一、相似度汽车和汽油很相关但不相似similar related synonymy（0或1，bool）二、方法1、Dictionary2、Distribution

2019-03-12 16:21:17 1090

原创自然辩证法（任元彪老师）——第四讲

一、复习题1、千万只白天鹅都不能说明天鹅皆白，而一只黑天鹅便可否定之。这表明（）A、从逻辑上说，证实科学定律和理论很难但证伪却很容易B、证实和证伪在逻辑上的不对等C、亦A亦BD、非A非B正确答案：C2、一个陈述，不管这世界具有如何性质，不管可能以何种方式运动，都与之没有冲突，那么这个陈述就是（）A、真理B、可证伪的C、不可证伪的D、非A非B非C...

2019-03-11 18:26:17 1126 1

原创数据挖掘及应用（莫同老师）—— 课程笔记（三）数据预处理

目录一、数据预处理概述二、数据抽取三、预处理方法四、标签抽取一、数据预处理概述瑕疵数据的存在与产生原因其他需要预处理的情况实际案例：某大型保险公司的数据挖掘应用二、数据抽取数据可能散布在不同的业务系统和不同的渠道，所以需要先汇集起来。金蝶ETL 解决方案案例数据抽取、转换、装载的过程 ETL的前提 ETL的原则：主动拉取，而不是推送数据...

2019-03-07 13:59:14 444

原创 NLP课程笔记（严睿老师）—— 语言模型（N-grams）

一、probabilistic Language Modeling目标：计算一个句子或句子中单词出现的概率怎么计算？The chain rule 计算联合概率可以直接用count来估计概率吗？不可以马尔可夫假设（Markov Assumption）：滑动窗口，只与临近的几个词有关Unigrams: 每个单词独立，与其他词没有关系Bigram model: 认为只与相邻的前一...

2019-03-01 16:05:25 893

原创数据挖掘及应用--课程笔记（二）认识数据

数据挖掘课程笔记（二）认识数据一、一、

2019-02-28 14:01:25 427

原创 NLP自然语言处理学习笔记（二）Word2Vec

NLP自然语言处理学习笔记（二）Word2Vec一、Word2Vec二、负采样本文是根据吴恩达教授的教学视频来整理的学习笔记，部分图片来源于视频的截图。原教学视频连接 https://mooc.study.163.com/learn/2001280005?tid=2001391038#/learn/content一、Word2VecWord2Vec是词嵌入的一种算法。分为Skip-grams...

2018-12-08 17:15:23 277

空空如也

空空如也