自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 数据挖掘之旅(二)

基础算法数据集的划分训练集(Training set) —— 学习样本数据集,通过匹配一些参数来建立一个模型,主要用来训练模型。类比考研前做的解题大全。验证集(validation set) —— 对学习出来的模型,调整模型的参数,如在神经网络中选择隐藏单元数。验证集还用来确定网络结构或者控制模型复杂程度的参数。类比 考研之前做的模拟考试。测试集(Test set) —— 测试训练好的模...

2020-03-29 11:13:27 134

原创 数据挖掘学习之旅(一)

基本算法线性回归基础概念在统计学中,线性回归是一种线性方法,用于建模标量响应(或因变量)与一个或多个解释变量(或独立变量)之间的关系。一个解释变量的情况称为简单线性回归。对于多个解释变量,该过程称为多元线性回归。该术语不同于多元线性回归,其中预测了多个相关因变量,而不是单个标量变量。在线性回归中,使用线性预测函数对关系进行建模,其中未知模型参数是根据数据估计的。这种模型称为线性模型。...

2020-03-24 21:57:11 175

原创 NLP修炼之旅(Day11)

RNN的结构。循环神经网络的提出背景、优缺点。着重学习RNN的反向传播、RNN出现的问题(梯度问题、长期依赖问题)、BPTT算法。2. 双向RNN3. LSTM、GRU的结构、提出背景、优缺点。4、针对梯度消失(LSTM等其他门控RNN)、梯度爆炸(梯度截断)的解决方案。5. Text-RNN的原理。6. 利用Text-RNN模型来进行文本分类1. RNN结构循环神经网络RNN,...

2019-04-27 20:56:54 203

原创 NLP修炼之旅(Day10)

卷积运算的定义、动机(稀疏权重、参数共享、等变表示)。一维卷积运算和二维卷积运算。反卷积(tf.nn.conv2d_transpose)池化运算的定义、种类(最大池化、平均池化等)、动机。Text-CNN的原理。利用Text-CNN模型来进行文本分类1. 卷积运算卷积网络,也叫卷积神经网络(CNN),是一种专门依赖处理具有类似网络结构的数据的神经网络。卷积是一种特殊的线性运算。卷积...

2019-04-25 21:13:50 159

原创 NLP修炼之旅(Day9)

文本表示:从one-hot到word2vec。1.词袋模型:离散、高维、稀疏。1.分布式表示:连续、低维、稠密。word2vec词向量原理并实践,用来表示文本词袋模型文本表示分为离散表示与分布式表示,其中词袋模型BoW(Bag-of-words)是n-gram语法模型的特例1元模型,该模型忽略掉文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。B...

2019-04-23 19:27:06 149

原创 NLP修炼之旅(Day8)

前馈神经网络、网络层数、输入层、隐藏层、输出层、隐藏单元、激活函数的概念。感知机相关;利用tensorflow等工具定义简单的几层网络(激活函数sigmoid),递归使用链式法则来实现反向传播。激活函数的种类以及各自的提出背景、优缺点。(和线性模型对比,线性模型的局限性,去线性化)深度学习中的正则化(参数范数惩罚:L1正则化、L2正则化;数据集增强;噪声添加;early stop;Dro...

2019-04-22 13:42:46 229

原创 NLP修炼之旅(Day7)

pLSA、共轭先验分布pLSA(Probabilistic Latent Senmanticing Indexing )是Hoffman在1999年提出的基于概率的隐语义分析,之所以说是Probabilistic,是因为这个模型还加入了一个隐变量:主题Z,也正因如此,它被称为主题模型设θ\thetaθ是总体分布中的参数(或者参数向量),π(θ)\pi(\theta)π(θ)是θ\thetaθ...

2019-04-19 21:38:14 217

原创 NLP修炼之旅(Day6)

SVM的原理SVM(支持向量机)是一种二分类模型,他的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使他有别于感知机,SVM学习算法就是求解凸二次规划的最优化算法SVM核心思想就是找到不同类别的之间的分界面,使得两类样本尽量落在面的两边,而且离分界面尽量远SVM学习的基本思想是求解能够正确的划分训练数据集并且几何间隔最大的分离超平面,对于线性可分的数据集来说,这样的超平面有无穷多...

2019-04-17 20:30:53 161

原创 达观杯(Day6)

Target1)进一步通过网格搜索法对3个模型进行调优(用5000条数据,调参时采用五折交叉验证的方式),并进行模型评估,展示代码的运行结果。(可以尝试使用其他模型)2)模型融合,模型融合方式任意,并结合之前的任务给出你的最优结果。例如Stacking融合,用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分结果。模型调优对于最后的这次任务,...

2019-04-15 21:44:58 147

原创 NLP修炼之旅(Day5)

朴素贝叶斯的原理利用“反向概率”的原理,贝叶斯建立了贝叶斯原理:在我们不了解所有的客观事实的情况下,同样可以估计一个值,然后根据实际效果不断进行修正贝叶斯原理是基于条件概率,通过P(A|B)来求P(B|A):P(B∣A)=P(B)P(A∣B)P(A)P(B | A)=\frac{P(B) P(A | B)}{P(A)}P(B∣A)=P(A)P(B)P(A∣B)​其中,分母P(A),可以根据全...

2019-04-15 21:18:20 142

原创 达观杯(Day5)

LightGBM原理简介传统的boosting算法(如GBDT和XGBoost)已经有相当好的效率,但是在如今的大样本和高维度的环境下,传统的boosting似乎在效率和可扩展性上不能满足现在的需求了,主要的原因就是传统的boosting算法需要对每一个特征都要扫描所有的样本点来选择最好的切分点,这是非常的耗时。为了解决这种在大样本高纬度数据的环境下耗时的问题,Lightgbm使用了如下两种...

2019-04-13 21:40:06 176

原创 NLP修炼之旅(Day4)

TF-IDFTF-IDF(Term Frequency -Inverse Document Frequency)是有TF和IDF两部分组成,TF指的词频,IDF指的是逆文本频率,用来反映一个词在文本中的出现频率,最后TF-IDF是有两部分乘积表示;文本矩阵化文本矩阵化,使用词袋模型,以TF-IDF特征值为权重,可以考虑使用Python中的TfidTransformer库互信息互信息是衡...

2019-04-13 21:18:49 121

原创 爬虫练习(Day4)

项目实战实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626 。其实这个大作业最难的是模拟登陆,使用header的cookie可以实现代码如下:import requestsfrom bs4 import BeautifulSoupdef getHTMLTex...

2019-04-13 20:39:20 137

原创 爬虫练习(Day3)

安装selenium并学习安装selenium并学习。Selenium是一个用于测试网站的自动化测试工具,支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器,同时也支持phantomJS无界面浏览器。并且支持多种操作系统:如Windows、Linux、IOS、Android等Selenium3.x调用浏览器必须有一个webdriver驱动文件。当Selenium...

2019-04-11 20:56:10 146

原创 达观杯(Day4)

逻辑回归(LR)LR模型逻辑回归(Logistic Regression)是一个非线性模型(sigmod函数),但是他本质又是一个线性回归模型,因为除去sigmod映射函数关系,其他的步骤,算法都算是线性回归LR的代价函数逻辑回归定义:P(Y=1∣x)=11+exp⁡(−wx)=σ(x)P(Y=0∣x)=1−σ(x)\begin{array}{l}{P(Y=1 | x)=\frac{1}...

2019-04-11 20:40:36 94

原创 NLP修炼之旅(Day3)

一、基本文本处理技能分词的概念词、字符频率统计二、语言模型unigram、bigram和trigram的概念unigram和bigram频率统计三、文本矩阵化分词去停用词,构建词表每篇文档向量化...

2019-04-11 19:56:01 159

原创 爬虫练习(Day2)

beautifulsoupBeautifulsoup是Python的一个库,主要是用来从网页爬取数据,可以将复杂的HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,可归纳为:Tag、NavigableString、BeautifulSoup和CommentTag 就是html中的一个个标签。像dl、dt、a、dd、p等HTML标签加上里面包括等内容就是Tag,我们可以用so...

2019-04-09 21:37:11 307

原创 达观杯(Day3)

Word2vec词向量词向量(word embedding):用一个向量表示一个词,机器学习任务需要把任何输入量化成数值表示(稠密向量DenseVector),然后通过充分利用计算机的计算能力,计算得到最终的结果,词向量的一种表达形式为one-hotCBOW(continuous bag of words)和skip-gram这是word2vec的两种模式,CBOW是根据目标单词所在的原始...

2019-04-09 21:17:40 159

原创 NLP修炼之旅(Day2)

一、IMDB数据集数据集介绍IMDB数据集下载:http://ai.stanford.edu/~amaas/data/sentiment/数据集简介:IMDb创建于1990年10月17日,从1998年开始成为亚马逊公司旗下网站,数据集中包括了影片的众多信息、演员、片长、内容介绍、分级、评论等。对于电影的评分目前使用最多的就是IMDb评分。数据集分析数据下载后包括train和t...

2019-04-09 18:18:38 1422 1

原创 爬虫练习(day1)

get与post请求1、get请求就是你向服务端申请,请求的参数直接包含在申请中,post请求是用于表单提交时发起,数据是以表单的形式传输,所以一般提交用户名和密码时 ,为防止使用get请求暴露密码,就会采用POST请求,上传文件时内容过大也会使用post请求2、使用requests中的.get()方法向百度发出一个请求re正则表达式1、re.match函数:尝试从字符串的起始位置匹配一...

2019-04-07 15:51:36 207

原创 达观杯练习赛(Day2)

TF-IDF理论与代码实践1、 什么是TF—IDFTF—IDF是一种统计方法,用以评估字词对于一个文件集或一个语料库中其中一个文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降2、TF-IDF的计算词频(TF)=某个词在文章出现的次数/文章的总词数 词频(TF)={某个词在文章出现的次数}/{文章的总词数}词频(TF)=某个词在文章...

2019-04-07 14:48:49 111

原创 NLP修炼(Day1)

准备工作Anaconda安装Conda安装jupyter notebook安装TensorFlow安装与学习前三点我们就不多说了,都是傻瓜式操作,一直点next就行;我们重点说说TensorFlow的安装与学习首先要了解,在TensorFlow中是如何:1、将计算流程表示成图2、通过Sessions来执行图计算3、将数据表示成tensors4、使用variables来保持...

2019-04-07 14:32:00 126

原创 LeetCode刷题之旅(Day7)

整数反转给出一个 32 位的有符号整数,你需要将这个整数中每位上的数字进行反转。示例 1:输入: 123输出: 321示例 2:输入: -123输出: -321示例 3:输入: 120输出: 21注意:假设我们的环境只能存储得下 32 位的有符号整数,则其数值范围为 [−231, 231 − 1]。请根据这个假设,如果反转后整数溢出那么就返回 0。解题思路:反转...

2019-04-06 21:13:13 91

原创 LeetCode刷题之旅(day6)

Z字形变换题目信息:将一个给定字符串根据给定的行数,以从上往下、从左到右进行 Z 字形排列。比如输入字符串为 “LEETCODEISHIRING” 行数为 3 时,排列如下:L C I RE T O E S I I GE D H N之后,你的输出需要从左往右逐行读取,产生出一个新的字符串,比如:“LCIRETOESIIGEDHN”。请你实现这个将字符串进行...

2019-04-05 21:18:11 160

原创 达观杯文本智能处理(Day1)

一、数据下载数据下载地址为:http://www.dcjingsai.com/common/cmpt/“达观杯”文本智能处理挑战赛_赛体与数据.html数据包括两个cav文件:train_set.csv:此数据集用于训练模型,每一行对应一篇文章,文章分别在“字”和“词”的级别上做了脱敏处理,共有四列:文章的索引(id)、字符相隔正文(article)、词语相隔正文(word_seg)以...

2019-04-05 20:56:34 235

原创 LeetCode刷题之旅(Day5)

最长回文子串给定一个字符串 s,找到 s 中最长的回文子串。你可以假设 s 的最大长度为 1000。示例 1:输入: “babad”输出: “bab”注意: “aba” 也是一个有效答案。示例 2:输入: “cbbd”输出: “bb”解题思路:我们观察到回文中心的两侧互为镜像。因此,回文可以从它的中心展开,并且只有 2n - 12n−1 个这样的中心,所含字母数为偶数的回...

2019-04-04 21:06:16 111

原创 LeetCode刷题之旅(Day4)

寻找两个有序数组的中位数给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。请你找出这两个有序数组的中位数,并且要求算法的时间复杂度为 O(log(m + n))。你可以假设 nums1 和 nums2 不会同时为空。示例 1:nums1 = [1, 3]nums2 = [2]则中位数是 2.0示例 2:nums1 = [1, 2]nums2 = [3, 4]...

2019-04-03 21:22:39 108

原创 初步算法梳理(Day3)

信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)信息熵熵度量事物的不确定性,越不确定的事物,他的熵就越大,随机变量的Y的熵表达式为:H(Y)=−∑j=1mpjlogpjH(Y)=-\sum_{j=1}^mp_jlogp_jH(Y)=−j=1∑m​pj​logpj​其中m表示了y的m种可能的离散取值,pjp_jpj​表示随机变量的Y的概率分布,也即pj=P(Y=yj),j=1,2,......

2019-04-03 16:40:09 116

原创 LeetCode刷题之旅(Day3)

无重复字符的最长子串给定一个字符串,请你找出其中不含有重复字符的 最长子串 的长度。示例 1:输入: “abcabcbb”输出: 3解释: 因为无重复字符的最长子串是 “abc”,所以其长度为 3。示例 2:输入: “bbbbb”输出: 1解释: 因为无重复字符的最长子串是 “b”,所以其长度为 1。示例 3:输入: “pwwkew”输出: 3解释: 因为无重复字符的最...

2019-04-02 21:37:41 95

原创 Leetcode刷题之旅(Day2)

两数相加给出两个 非空 的链表用来表示两个非负的整数。其中,它们各自的位数是按照 逆序 的方式存储的,并且它们的每个节点只能存储 一位 数字。如果,我们将这两个数相加起来,则会返回一个新的链表来表示它们的和。您可以假设除了数字 0 之外,这两个数都不会以 0 开头。示例:输入:(2 -> 4 -> 3) + (5 -> 6 -> 4)输出:7 -> 0 ...

2019-04-01 17:26:41 115

原创 初步算法梳理(Day2)

逻辑回归与线性回归的联系与区别线性回归模型的输出值y是连续型变量,值域是R;逻辑回归的输出值y是离散型变量,值域为{0,1};逻辑回归实属于广义线性模型,线性回归预测函数y=Xθy=X_\thetay=Xθ​而逻辑回归预测函数需要做一个函数转换y=g(z)y=g(z)y=g(z)其中z=Xθz=X_\thetaz=Xθ​即通过g将线性回归原本的值域R映射到【0,1】区间内,当取值大于临界值时为...

2019-04-01 16:58:38 160

原创 leetcode刷题之旅(day1)

两数之和给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。示例:给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]第一种...

2019-03-31 20:48:12 112

原创 初级算法梳理(Day1)

一,机器学习基础概念有监督与无监督泛化能力过拟合欠拟合(方差和偏差以及各自解决方法)交叉验证二,线性回归的原理三,线性回归损失函数,代价函数,目标函数四,优化方法五,线性回归的评价指标六,sklearn参数详解...

2019-03-31 10:45:05 142

原创 Datawhale打卡-python(Day5)

实战项目:运用python的turtle画一个小猪佩奇下面为尺寸图:下面是示例代码(参考于网上,如有侵权,马上删除):from turtle import*def nose(x,y):#鼻子 penup()#提起笔 goto(x,y)#定位 pendown()#落笔,开始画 setheading(-30)#将乌龟的方向设置为to_angle/为数字(...

2019-03-08 19:36:54 131

原创 Datawhale打卡-python(Day4)

文件(file)打开文件的方式打开文件程序会调用内置的open函数,格式为:open(“文件名,打开方式”)。处理模式:“r”:为输入打开文件;“w”:为输出生成并打开文件;“a”:在文件尾部追加内容并打开文件文件的写入要是写入文件,确保之前的打开模式有“w”或者“a”,否则会报错,而且要使用w模式会将之前的文件全部删除,使用a模式是在原来的内容上追加文件对象的操作方法打开文件并取得...

2019-03-07 20:10:27 186

原创 Datawhale打卡-统计学(Day4)

线性回归

2019-03-05 17:42:23 231

原创 Datawhale打卡-MySQL(2019.3.4)

项目十行程与用户(难度:困难)Trips表中存有所有出租车的行程信息,每段行程信息,每段行程有唯一的键Id,Client_Id和Driver_Id 是User表中的User_Id 的外键,Status是枚举类型,枚举成员为(‘completed’,‘cancelled_by_driver’,'cancelled_by_client)Trips表:IdClient_IdDri...

2019-03-04 20:49:18 136

原创 Datawhale打卡-python(Day3)

字典dict字典是python很常用的数据结构,是一种哈希映射或者关联数组,是键值对的大小可变集合,键和值都为对象;d={'a':'some value','b':[1,2,3,4]} #字典标志是{},分割键和值用:d['a’] #访问字典中元素del d1['a'] #删除d.pop('b')d #删除d.update({'d':12345', 4:'asd'} #合并...

2019-03-03 21:20:04 127

原创 Datawhale打卡-MySQL(2019.3.3)

项目七各部门工资最高的员工(难度:中等)创建Employee表,包含所有员工的信息,每个员工都有其对应的Id,salary和department id,创建department表,包含所有部门的信息,编写一个SQL查询,找出每个部门工资最高的员工idNameSalaryDepartment1Joe7000012Henry8000023Sa...

2019-03-03 20:44:16 123

原创 Datawhale打卡-统计学(day3)

假设检验(一)一,定义假设检验是一种判断某个事件发生的可能性时使用的科学方法,首先先提出一个假设,也就是原假设H0H_{0}H0​,然后还有一种是备择假设H1H_{1}H1​或者HaH_{a}Ha​,假设检验是趋于保守的原则的,也就是原假设是保守的假设;原假设与备择假设不一定是对立的,但一定是互斥的;二,判断是否拒绝原假设p值法p值主要用来判断不同样本之间差距是由抽样误差引起的...

2019-03-03 17:18:10 143

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除