开数据挖掘机的小可爱-CSDN博客

原创【排坑】使用NLTK做TFIDF时出现Resource punkt not found. Please use the NLTK Downloader to obtain the resource:

做文本分析时遇到的坑+1问题描述：使用NLTK做TFIDF时出现Resource punkt not found. Please use the NLTK Downloader to obtain the resource:解决办法：从这里 http://www.nltk.org/nltk_data/.下载Punkt Tokenizer文件下载后是个压缩包，需要解压，选择报错的文件夹下任意文件夹，在其下建立新文件夹（nltk_data→tokenizers)，然后解压到tokenizers即可

2021-12-14 10:59:52 1163

原创 ‘Tensor‘ object has no attribute ‘_keras_history‘——keras和tensorflow版本不兼容

keras和tensorflow版本不兼容

2021-12-06 16:34:54 1525 1

原创 jupyter如何导入CRF的包

jupyter导入CRF包

2021-12-06 11:18:13 306

原创贝叶斯估计

2021-04-04 21:24:44 118

原创优化算法——牛顿法

2021-04-04 17:35:57 95

原创为什么梯度方向就是最速下降？—泰勒展开

为什么梯度方向就是最速下降？原理：泰勒展开即： -▽f(x)Δx 即df(x)Δx ，为函数值的变化量，是向量df(x) 和 Δx的点积，当两向量共线时点积值最大，因此要想找到从A点最快到B点的路径，就要找到最大点积值，也就是说使两向量方向相同。 d f(x)是函数在x处的梯度，所以梯度方向是函数局部上升最快的方向。...

2021-04-04 16:36:52 1119 2

原创【正则化】—通俗易懂谈正则化：L1正则化和L2正则化

颓废多日，终于重新回归博客，记录每天的学习or复习，每一天都要加油鸭~ 今天算是复习了一下正则化吧，主要也是这个在实习面试中也经常会被问到（一直想系统的记录下找实习的面试的坎坷历程，也记录下被问到的问题，方便后面再面试复习，但一直懒，这周我会完成吧？）言归正传，废话不多说，接下来复习正则化吧！说到正则化，在面试中经常会问到的就是什么是正则化？L1和L2正则化的区别？1.为什么要正则化？减小模型参数大小或参数数量，缓解过拟合2.什么是正则化？通式：正则化项又称惩罚项，惩罚的是模型的参

2021-03-30 19:42:50 1443

原创【数据结构】python——变位词判断

变位词就是两个词中组成字母或汉字相同，但排列不同判断两个词是否为变位词的方法有四种：一、暴力法算法思路：将词1中出现的字符进行全排列，再查看全排列结果中是否报刊词2 缺点：全排列结果过多二、逐字检查法算法思想：将词1中的字符逐个到词2中检查是否存在，存在就“打勾”（将对应字符设置为None)，若词1中每个字符都能在词2中找到，则两个词是变位词，只要有一个找不到，则不是def anagramsolution1(s1,s2): alist=list(s2)#复制s2到列表

2021-02-10 18:10:41 524

原创【Driven Data竞赛】——疫苗接种情况预测参赛

今天记录一下参加的DrivenData平台的一个数据类竞赛当Score:0.8515，排名(209/1808)前11.5%，还很菜，待提高ing. DrivenData是什么呢？目前有很多的数据类竞赛平台，较为大家熟知的有kaggle、天池等，DrivenData也是一个数据竞赛平台，上面有很多数据挖掘类竞赛，可以根据赛题类型、困难度进行选择适合自己的进行参加，有很多竞赛还是很适合初学者的。我参与的是疫苗接种情况预测，全名: “Flu Shot Learning: Predict H1N1 and

2021-02-07 17:06:29 961 2

原创【Hive】Hive分区表

Hive 分区表一、What？二、Why?三、How?一、What？分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多。二、Why? Hive中存有海量数据，若不进行分区，则和orderby原理相同，只能由一个人去完成某个指令，其并行度不够，运行速度较慢，因此需要分区，将表中数据分

2021-02-07 16:11:10 132

原创【Hive】Hive 中四个BY对比：Order By,Sort By ,Distribute By,Cluster By [Hive面试常考]

Hive 中四个BY比较一、Order By二、Sort By三、 Distribute By四、 Cluster By一、Order By Order By：全局排序。只有一个 Reducer，无论将reducer设置为几，实际都只有一个。效率较低。有ASC（ascend）: 升序（默认） DESC（descend）: 降序两种排序方式。ORDER BY 子句在SELECT 语句的结尾例： select * from emp order by sal desc;二、Sort By

2021-02-07 12:12:54 1610

原创【Hive】Hive 和数据库比较

第八章 Hive 和数据库比较 Hive是一个由 Facebook 开源用于解决海量结构化日志的数据统计工具，是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。其本质是将 HQL 转化成 MapReduce 程序。那么Hive和数据库有什么异同呢？其实其主要差别在于两者适用情形的不同：Hive适用于大规模数据，而数据库一般常用于小数据集。这一点是其所有异同的根本原因。1.查询语言由于 SQL 被广泛的应用在数据仓库中，因此，专门针对

2021-02-05 15:52:28 214

原创【SQL】sql从0到1——第【8】章：变量、存储过程、函数

第八章变量、存储过程、函数一、变量分类二、系统变量三、自定义变量四、存储过程和函数1.存储过程2.函数一、变量分类系统变量：全局变量、会话变量自定义变量：用户变量、局部变量二、系统变量变量由系统提供，不是用户定义，属于服务器层面使用的语法： 1.查看所有的系统变量 Show global/session variables； 2.查看满足条件的部分系统变量 Show global/session variables like ‘%char%’； 3.查

2021-02-02 15:18:17 120 1

原创【SQL】sql从0到1——第【7】章：事务控制语言（事务、视图）

第七章事务控制语言一、事务1.事务2.事务的ACID属性：**敲黑板！面试考点！！！**3.事务的分类4.事务的创建5.数据库的隔离级别5.回滚点二、视图1.创建视图2.视图的好处3.视图的修改4.视图的删除5.视图的查看6.视图的更新7.视图和表的对比8.delete和truncate在事务使用时的区别 TCL：Transaction Control Language一、事务1.事务一个或一组SQL语句组成一个执行单元，这个执行单元要么全部执行，要么全部不执行。每个SQL语句都是相互依赖

2021-02-02 14:31:50 120 1

原创【SQL】sql从0到1——第【6】章：数据定义语言（库、表的管理；MySQL数据类型；约束；标识列）

第六章数据定义语言一、库的管理二、表的管理三、常见的数据类型四、常见约束五、标识列一、库的管理1 . 库的创建 Create database if exits 库名；例：Create database if not exits students；2 . 库的修改更改库的字符集：Alter database character set 新名称3 . 库的删除（删库跑路？？？） Drop database if exits 库名；4. 修改库名停止服务电脑C盘-

2021-01-30 10:11:26 118 2

原创【SQL】sql从0到1——第【5】章：数据更新

第五章数据更新一、插入语句二、修改语句一、插入语句1．插入方式一基本语法： Insert into 表名（列名……） Values （值1，……）; 注意：  插入的值的类型要与对应字段的类型一致或兼容  不能为null的列必须插入值，可以为null的列插入值有两种方式：①列名和值都省略②写出列名，值用null  列的顺序可以调换，但值与列名要严格对应  列数和值的个数必须一致  可以省略列名，默认所有列，且列的顺序与表中列的顺序一致

2021-01-27 11:06:39 99

原创【SQL】sql从0到1——第【4】章：子查询、分页查询、联合查询

第四章子查询、分页查询一、子查询二、分页查询一、子查询子查询（内查询）：出现在其他语句中的select语句主查询（外查询）：外部的查询语句子查询可出现的位置： ① Select 后面：仅支持标量子查询（结果集只有一行一列） ② From后面：支持表子查询（结果集一般为多行多列） ③ Where后面：支持标量子查询、列子查询（结果集只有一列多行）、行子查询（结果集有一行多列） ④ Having后面：同where ⑤ Exists后面：支持表子查询子查询应用在Where

2021-01-26 22:36:08 197

原创【SQL】sql从0到1——第【3】章：分组查询、连接查询

第三章分组查询、连接查询一、分组查询二、连接查询1. 连接查询按功能分类2. 内连接3. 外连接一、分组查询查询列表必须有分组函数和group by后面的字段基本语法： Select 分组函数，列（必须出现在group by后面） From 表 Where 筛选条件 Group by 分组列表 Having 分组后的筛选 Order by 排序列表例： Select max(salary),job_id

2021-01-26 11:09:08 117

原创【SQL】sql从0到1——第【2】章：常见函数—速查

第二章常见函数总结一、单行函数1.字符函数2.数学函数3.日期函数二、分组函数一、单行函数1.字符函数① Length:获取参数值的字节个数，在utf8下，一个字母占一个字节，一个汉字占三个 Select length（name）长度 From employee；② Concat：拼接字符串 Select concat(last_name,first_name)姓名 From employee；③ Upper:把字符串转换为大写 Lower : 把字符串转换为小写

2021-01-25 16:58:24 153

原创【SQL】sql从0到1——第【1】章：基础章节—初识SQL

一、 SQL语言细分 SQL主要由数据定义、数据操纵、数据控制、使用规定这四个部分组成。DDL：Data Definition Language数据库定义语言用于定义数据库的三级结构，定义模式、基本表、视图、索引的创建和撤销操作。包括外模式、概念模式、内模式及其相互之间的映像，定义数据的完整性、安全控制等约束。包括库和表的管理、常见约束等DML：Data Manipulationtion Language数据操纵语言可分为数据查询和数据更新两大类，具体包括数据增删改查：基础查询、条件查询、排序

2021-01-24 10:08:06 405 1

原创【机器学习】——K_means如何选择k值？

K_means聚类是我们在无监督学习中常用的一种算法，但有一个很让人头疼的问题就是如何选择k值。在实际业务中，如果根据业务场景明确知道要得到的类数，那就好办了，但很多时候不知道K怎么办呢？下面有三种方法可以用来确定k值，其基本思想还是最小化类内距离，最大化类间距离，使同一簇内样本尽可能相似，不同簇中样本尽可能不相似.1.肘部法随着k值增大，误差值会越来越小（举一个极端的例子：当每一个样本被分为一个类时，类内间距最小，但这显然不是我们想要的），因此可根据不同k值下的误差曲线选择使误差平方和下降最快

2020-12-30 15:38:17 5599

原创【深度学习】——优化器

神经网络参数优化器神经网络的训练过程是通过迭代更新超参数来最小化损失函数的过程，最终目标是找到使损失函数最小，最能准确预测的超参数组合。而在更新迭代超参数时就需要用到不同的优化器，本文简要介绍几种常用的优化器。1.优化器基本步骤①计算t时刻损失函数关于当前参数的梯度：②计算t时刻的一阶动量mt（与梯度相关的函数）和二阶动量Vt（与梯度平方相关的函数）③计算t时刻下降梯度：④更新t+1时刻参数：各个优化器的基本步骤和原理都是这样的，优化器的区别就是一阶动量和二阶动量的设计不同。2.SG

2020-12-27 22:58:18 927

原创【深度学习】——神经网络中常用的激活函数：sigmoid、Relu、Tanh函数

激活函数实际中的很多事情并不能简单的用线性关系的组合来描述。在神经网络中，如果没有激活函数，那么就相当于很多线性分类器的组合，当我们要求解的关系中存在非线性关系时，无论多么复杂的网络都会产生欠拟合。激活函数就是给其加入一些非线性因素，使其能够处理复杂关系。1.Sigmoid函数：把输入值映射到[0,1],其中0表示完全不激活，1表示完全激活其图像为：特点：①sigmoid函数的导数取值范围在【0，0.25】之间，在深度网络中，需要用链式法则多次求导，导数为多个在【0，0。25】之间的数相乘，结果

2020-12-27 19:36:40 3194

原创【Tensorflow】——张量：创建、常用函数

TensorflowTensor（张量）一、创建张量1. 直接创建2.用numpy数据类型转换为tensor类型3.创建特殊的张量二、 Tensorflow常用函数1.平均、求和2. 标记可训练变量：3. 数学运算：4. 切分传入张量的第一维度，生成特征/标签对，构建数据集5. 计算张量的梯度6.遍历每个元素7.独热编码8.激活函数softmax(y)9. 自更新函数10.获取张量沿指定维度最大值的索引 Tensorflow是当下最流行的深度学习框架之一， Tensorflow可以分为tensor（张

2020-12-27 15:31:42 473

原创【数据结构】——树：二叉树的遍历

1.度：节点的度：某个节点的子节点个数树的度：节点最大的度数2.二叉树：最多有两颗子树：左子树、右子树满二叉树：除最后一层没有子节点外。其余每一层的所有节点都有两个子节点完全二叉树：在深度为d的二叉树中，除了第d层，其他各层节点数均为2 满二叉树和完全二叉树区别：完全二叉树可允许在中间层包含叶子节点，满二叉树只允许最后一层为叶子节点3.二叉树的遍历主要区别：访问根节点的顺序① 前序遍历：访问根节点-前序遍历左子树-前序遍历右子树：A-B-D-E-Cclass aT

2020-12-21 21:29:46 90

原创【数据结构】——查找算法：顺序查找、二分查找

一、in 最简单的查找算法：for i in range(3)二、顺序查找11.无序列表顺序查找的时间复杂度较高为O（n）若要查找的元素在列表中有多个，则在查找到第一个后即停止时间复杂度：最好：O（1）最好即第一个元素就是目标元素当不存在要查找的元素时为O（n）最坏：O（n）最坏是查到最后一个才找到目标元素#无序列表的顺序查找m=[1,5,3,9,7]def seqSearch(alist,item): i=0 found=False whil

2020-12-21 18:31:50 449

原创【数据结构】——交换排序算法：冒泡排序、快速排序

一、冒泡排序：（稳定）1.基本思想成对比较：比较相邻元素，若第一个大于第二个，则交换对每一对相邻元素做同样工作，这一步完成后最后的元素将是最大的数针对所有元素重复以上过程（除去排好序的数字）没有任何一对元素发生交换时，停止排序2.代码实现#冒泡排序m=[1,3,4,2]def Bubble_sort(alist): n=len(alist) count=False for i in range(0,n-1):#循环每一对 for j in

2020-12-21 10:28:20 113

原创【数据挖掘】——向量and矩阵

一、向量向量加减：m+n:对应位置元素加减向量乘以常数：m*3向量点乘（内积）：np.dot(m,n)相应位置元素相乘再相加向量叉乘（外积）：np.cross(m,n)向量哈达玛积：m*n对应位置相乘二、矩阵矩阵创建：np.mat(np.random.randint(1,10,size=(2,3))矩阵加减：A+B对应位置相加减，两个矩阵必须具有相同阶矩阵与数相乘：A*2矩阵与向量相乘：保证矩阵列数等于向量行数#矩阵与向量相乘import numpy as npA=np.m

2020-12-20 13:51:15 200

原创【数据挖掘】——pandas中Series和Dataframe

1. Series 类似numpy中的一维数组，但series更灵活，可以自定义索引。创建一维数组：s=Series(data=[1,2,3,4],index=list(‘abcd’))获取数组中的数据：s.values获取数组中的索引：s.index获取数据中的键值对：list(s.iteritems())将字典转换为Series：s=Series(dict),字典的key变为数组的索引，字典的value变为数组的value获取数组中的某个值：①按索引获取：s[ ‘小明’ : ’小亮’

2020-12-19 18:51:04 223 1

原创【数据挖掘】—— 一文搞懂Numpy基本操作

Numpy是一个python科学计算库，支持数组和矩阵操作，可用于处理数值类型的数据，进行数值的计算分析一、ndarray ndarray是一个N维数组对象，它里边的数据必须是同类型的，而python中的list对象中数据可以是不同类型的。1.一维数组 ①将list转化为array:np.array(list)#数组计算a=[[1,2,3,4],[2,3,4,5],[3,4,5,6],[4,5,6,7]]b=np.array(a)print(b) ②利用range生成序列，利用

2020-12-19 12:05:51 156 1

原创【数据挖掘】——Matplotlib可视化-常用图表绘制

一、基本格式设置 Matplotlib:python中一个数据可视化的库，可绘制2D图形，也就是说图形中包含x轴和y轴，因此在进行画图时需要传入x和y值。下面是一些关于绘图中的格式参数的介绍：① 设置图片大小：通过画布大小改变图片大小 plt.figure(figsize=(4,4),dpi=100) figsize：画布大小，是一个包括长和宽的列表 dpi：设置分辨率，dpi=100表示没一英寸有100个像素点④ 保存图片： plt.

2020-12-18 18:41:47 636 1

原创【文本挖掘】——文本信息化——词袋模型

文本信息化一、词袋模型：1.One-hot2. One-hot＝Bag of Words词袋模型3.gensim实现词袋模型将文本信息数值化，从而便于建模。工欲善其事，必先利其器。在数据挖掘中，数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。因此文档信息向量化决定模型的高度。一、词袋模型：1.One-hot 在之前做纯数据挖掘时，我记得它叫独热编码，它的基本思想时将每个特征可能取到的值单独作为一个变量，该变量出现记为1，不出现记为0. 在文本分析中，它是一种最早用于提取文

2020-12-17 23:05:18 910

原创【文本挖掘】——词频统计、词云绘制与美化+[微微一笑很倾城]实战

这里写目录标题一、词频统计：1.基本概念及原理2.词频统计方法二、词云1.词云绘制工具：2.python词云绘制——Wordcloud三、基于分词频数绘制词云1.利用词频绘制词云2.美化词云一、词频统计：1.基本概念及原理这一步是在做完分词之后进行的，所以以下所有步骤都基于分词后构建的词条的list进行。说白了他就是统计每个词在文中出现过多少次，主要目的是为找出频次高的”关键词“打基础。词频统计的伪代码：2.词频统计方法①基于pandas的词频统计：输出结果为一个序列，该序列每一行的

2020-12-17 00:36:51 3682

原创【文本挖掘】——中文分词

这里写目录标题一、分词算法二、分词的难点三、常见分词工具四、结巴分词模式五、修改词典六、去除停用词七、词性标注一、分词算法分词算法主要有基于字符串的匹配和基于统计和机器学习的分词1.基于字符串的匹配：以现有的词典为基础进行，扫描字符串，若发现字符串的子串和词相同，即为匹配，通常加入一些启发式规则：正向/反向最大匹配、长词优先等。{①最大匹配法：以设定的最大词长度为框架，取出其中最长的匹配词。如：“中国共产党”会被完整取出，而不会被进一步分词②最大概率法：对句子整体进行分词，找到最佳的词汇排列组合

2020-12-16 17:12:14 1213 1

原创【机器学习】——感知机学习算法

1.感知机：根据输入实例的特征向量X对其进行二分类的线性分类模型2.目标：感知机模型从输入空间到输出空间的映射可表示为y=f(x)=sign(w*x+b)，感知机学习的目的就是学得一个使训练样本正例与负例完全正确分开的超平面wx+b=0，也就是学习参数w和b3.损失函数：用分类错误的点到超平面的距离表示。点到平面的距离公式为：因此一个分类错误的点到超平面的距离为：因为在函数y=f(x)=sign(wx+b)中sign为符号函数，因此当wx+b≥0时，y=1;当w*x+b≤ 0时，y=-1;因此对于任

2020-12-05 22:02:28 1554

原创【统计学习方法】——生成模型/判别模型

监督学习方法{生成方法→生成模型判别方法→判别模型监督学习方法\left\{\begin{aligned}生成方法→生成模型\\ \\判别方法→判别模型\end{aligned}\right.监督学习方法⎩⎪⎨⎪⎧生成方法→生成模型判别方法→判别模型2.生成方法：先学习联合概率分布，再求出条件概率分布作为预测模型，即生成模型表示了输入X产生输出Y的生成关系常见的生成模型：朴素贝叶斯、隐马尔可夫模型判别方法：直接学习决策函数或条件概率分布作为预测模型判别模型关心给定的输入X，...

2020-12-05 14:59:34 222

原创【机器学习】——聚类相关理论及性能度量

聚类的概念聚类是一种无监督学习，即训练数据中是不含标签等标记信息的。聚类就是根据给定样本内部的特征，将其划分到若干个类别，每个类别就是一个簇，聚类的结果就是使得同一簇内的样本尽可能相似，即相似度较大，而不同簇之间相似度尽可能小。而此相似度的衡量可通过样本间的距离衡量。简单来说，聚类就是我们平时所说的“物以类聚”。硬聚类和软聚类通过聚类得到的结果是若干个簇，其本质是样本的子集。硬聚类：聚类得到的结果中，一个样本只属于一个簇，也就是说任意两个簇的交集为空集。软聚类：一个样本可以被划分到多个簇，即：两.

2020-12-01 22:57:43 1616 1

原创【机器学习】—— 模型评估那点“小事儿”

训练误差和泛化误差把学习器的实际预测输出与样本真实输出值之间的差异称为“误差”。训练误差：学习器在训练数据上的误差，可做为模型调参的依据。泛化误差：学习器在新样本上的误差，反映了学习器对未知数据的预测能力。将学习器对未知数据的预测能力称为泛化能力，泛化误差越小，泛化能力越强，越是符合我们的期望。过拟合与欠拟合过拟合：学习器对已知数据学习的太好了，以至于把训练样本特有的一些性质当作了所有样本都具有的性质，即：模型的复杂度高于实际“真模型”，在已知数据上表现很好，在未知数据上表现很差。欠拟合：学习.

2020-11-30 22:28:11 502 1

原创【机器学习】——聚类中几种常用的相似度度量

聚类中几种常用距离度量在聚类问题中，相似度直接影响聚类的结果，其选择是聚类的根本问题。将样本看作n维向量空间中点的集合，则样本间的相似度可用样本在该向量空间的距离表示。距离度量的基本性质非负性 :同一性：对称性：直递性：可理解为两边之和大于第三边，即三角不等式。一、闵可夫斯基距离定义：给定n维空间中的任意两点 , ，这两点间的闵可夫斯基距离为：缺点：（1）没有考虑各个分量量纲不同的问题。（2）没有考虑各个分量的分布不同的问题（3）没有考虑变量间的相

2020-11-21 22:05:45 9746 1

空空如也

空空如也