简简丹-CSDN博客

原创 hive之练习题一

练习11.求单月访问次数和总访问次数表字段：用户名，月份，访问次数现要求出：每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数，结果数据格式如下输出：用户、月份、最大访问次数、总访问次数、当月访问次数CREATE EXTERNAL TABLE IF NOT EXISTS t_access(uname STRING COMMENT '用户名',umonth STRING...

2019-09-02 21:47:21 2290

原创 hive之开窗函数

开窗函数结构：分析函数+窗口子句窗口子句over(partition by ** order by ** rows between ** and **)其中between ** and ** 之间可以填起始结束解释unbounded precedingcurrent row从第一行到当前行，这是默认的情况3 precedingcurrent row...

2019-08-30 18:59:12 640

原创循环神经网络RNN

输入与输出：输入：序列上不同时刻的数据依次传入，每一时刻必须有输入输出：对序列下一时刻的预测；对当前时刻信息的处理结果，每一时刻不一定要有输出。用途：处理和预测序列数据。当前输出与之前的信息有关，体现在网络结构上就是，就是会记忆之前的信息，并利用之前的信息影响后面节点的输出，即隐藏层之间的节点是有连接的，隐藏层的输入不仅包括输入层的输出，还包括隐藏层上一刻的输出。对比对比全连...

2019-03-29 10:36:09 411

原创卷积神经网络实现文本分类

源代码链接（github地址）https://github.com/dennybritz/cnn-text-classification-tf参考博文： https://blog.csdn.net/github_38414650/article/details/74019595数据集：https://github.com/cystanford/text_classification包含训练...

2019-03-28 09:57:02 2850

原创分词、去停用词

分词、去停用词#https://github.com/xgli/jiebaimport osimport jieba# 未分词语料库路径corpus_path =r' '# 分词后语料库路径seg_path = r' '# 停用词路径stop_list_Path = r' 'def stopwordsList(stop_list_Path): f = open(s...

2019-03-27 21:40:42 3496

原创 tensorflow——optimizer.minimize()、optimizer.compute_gradients（）、optimizer.apply_gradients（）

优化函数# 损失函数loss = ...optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.1)train_op =optimizer.minimize(loss)其中minimize（)包含两个步骤：1.计算loss对指定val_list的梯度（导数），返回元组列表[(gradient,variable),…]...

2019-03-27 16:52:54 24124

原创 tensorflow——tf.contrib.learn.preprocessing.VocabularyProcessor用法

主要构建语料集中的词典，以及把中文序列转化为词id序列函数tf.contrib.learn.preprocessing.VocabularyProcessor(max_document_length, min_frequency=0, vocabulary=None, tokenizer_fn=None)参数：max_document_length: 文档的最大长度。如果文本的长度大于最大...

2019-03-27 15:56:55 849

原创 tensorflow——tf.flags命令行参数的使用

1.主要用途flags帮助我们通过命令行来动态的更改代码中的参数（可以不用反复修改源代码中的参数，直接在命令行中进行参数的设定。如 python train.py --input_file “…” ）使用flags定义命令行的参数（先定义参数，将参数统一保存到变量FLAGS中，相当于赋值，后面调用参数时直接使用FLAGS参数即可）2. 参数类型主要包括tf.flags.DEFINE_xx...

2019-03-27 13:42:54 2629

原创找工作

1.GitHub万星的ML算法面试大全https://github.com/imhuay/Algorithm_Interview_Notes-Chinese

2019-03-25 11:09:35 94

原创 CNN

一.卷积神经网络结构：1.输入层：为输入的特征数，如图像的像素数2.卷积层：主要结构为卷积核（过滤器、内核）。一般经过卷积层之后节点矩阵会变得更深过滤器（作用、尺寸、调整结果矩阵的大小作用：将当前层神经网络上的一个子节点矩阵（三维的）转化为下一层神经网络上的一个单位节点矩阵，其中单位节点矩阵指的长和宽都为1，但深度不限的节点矩阵。尺寸：长宽人工指定（33，55），处理的矩阵深度和当前神经...

2019-03-24 19:18:10 839

原创 numpy学习

numpy概述是python的一个矩阵类型，用于矩阵处理，内部运算通过C语言。是一个使运算更容易、执行更迅速的库。numpy数据类型数组 array矩阵 mat(matrics) 两种数据类型对比方法基本运算形状排序取出指定范围的元素...

2019-03-24 18:37:57 74

原创集体智慧编程ch2——提供推荐

基于用户进行过滤基于物品进行过滤关键是理解两张表2-2和2-3，理解两者的区别，涉及到数据集的构建，数据集的变换，相似度的度量，皮尔逊相关系数度量，给用户推荐相似用户，给用户推荐物品找寻物品的相似物品，根据用户历史打分物品，推荐...

2019-03-24 18:37:03 116

原创集体智慧编程ch3—发现群组——聚类

数据聚类一种用以寻找紧密相关的事、人或观点，并将其可视化的方法。目的是采集数据，然后从中找出不同的群组。分级聚类通过连续不断地将最为相似的群组两两合并，来构造出一个群组的层级结构。其中的每个群组都是从单一元素开始的。树状图形式来展示分级聚类结果K均值聚类首先随机确定K个中心位置，然后将各个数据项分配给最邻近的中心点。待分配完成之后，聚类中心就会...

2019-03-24 18:36:19 161

原创 DPMM模型采样

DPMM采样：已知前i−1i−1 i-1 个观测数据x−ix−ix_{-i}和其对应的主题z−iz−iz_{-i}，抽取第i个词所属的主题ziziz_{i} 1.首先根据其他主题z−iz−iz_{-i}抽取第i个主题ziziz_{i} 2.然后根据抽的主题ziziz_{i}生成单词xixix_i，对主题词分布ϑzϑz\vartheta _{z}进行积分 ...

2019-03-24 18:33:43 2166

#定义采用不同特征值之间的距离方法进行分类#算法概述给定一个训练集（其中的实例类别已定），对新的输入实例（无标签），比较新实例特征与样本集中的特征，在训练数据集中找到与该实例中最邻近的K个实例，这K个实例的多数属于那个类，就把该输入实例分为这个类（K&amp;amp;amp;lt;=20）输入：实例的特征向量输出：实例的类别三要素：K值的选择，距离度量、分类决策规则——对特征空间的划分1.K值的选择—...

2019-03-24 18:32:51 255

原创机器学习实战读书笔记系列3——决策树

1.算法定义从数据集合中提取出一系列规则，可以更好的理解数据的内在含义与KNN一样，是结果确定的分类算法，，数据实例会被明确分到某个类中优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征的数据缺点：可能会产生过度匹配问题适用于数值型与标称型数据。树构造算法只适用于标称型数据，数值型数据必须离散化2.决策树构造需考虑的问题：1.数据集的哪个特征在分类...

2019-03-24 18:32:33 214

原创机器学习实战读书笔记系列4——朴素贝叶斯

1.回顾贝叶斯决策理论的核心：选择具有最高概率的决策计算条件概率——贝叶斯准则使用条件概率进行分类，概率大，就分到该类2.使用朴素贝叶斯进行文档分类朴素贝叶斯分类器假设：‘朴素’——特征之间相互独立（对于文本来说，一个单词的出现与其他单词无关）,则样本数为N*x每个特征同等重要注：样本数随特征数目增大而增大（指数级）若每个特征需要N个样本，共x个特征，则样本数为NxN...

2019-03-24 18:32:13 315

原创机器学习实战读书笔记系列5——logistic回归

‘每一小节都给出代码，并将运行结果截图放在下面’概念：回归：假设现在有一些数据点，用一条直线对这些点进行拟合（该线成为最佳拟合直线），拟合过程称作回归逻辑回归的主要思想：根据现有数据对分类边界线建立回归公式，以此进行分类（找到最佳拟合参数集）训练分类器就是使用最优化算法，寻找最佳拟合参数二值型输出分类器1.基于logistic回归和sigmoid函数的分类2.基于最优化方法的最佳回...

2019-03-24 18:31:54 161

原创数据结构系列1——算法初识

算法主要研究问题（核心）：时间与空间复杂度使用大O记号（这个为最坏的情况，是算法的上界，忽略常数系数）时间：基本操作次数（会变指令条数）空间：占用内存字节数区别：空间可以再利用时间空间可以互换（Hash表）常见时间复杂度分析方法：1.输入输出——确定算法的下界2.数循环次数——循环次数相乘，通过最内层循环优化3.均摊分析——平均预估，多个操作，一起算时间复杂度常见复杂度：...

2019-03-24 18:31:16 126

原创 Day1——Data PreProcessing

数据预处理包括以下部分：1.导入库：pandas,numpy2.导入数据集，CSV文件为纯文本的表格形式3.处理缺失数据：缺失值可以取列的平均值或者中间值4.把标称型数据转换为数值型数据5.数据集划分为测试集和训练集6.特征缩放（降维）...

2019-03-24 18:30:27 93

原创机器学习实战系列14——奇异值分解SVD

奇异值分解1. 概念将一个复杂的矩阵分解为3个小的简单的矩阵，其中sigma矩阵只包含对角元素且对角元素降序排列，该对角线元素为奇异值，为原始数据最重要的特征值。奇异值的取舍遵守两种启发式规则：取总量信息的90%，总量信息的计算为：所有奇异值的平方求和对上千万的奇异值，只取前2000到3000的奇异值2. 应用隐性语义分析推荐系统数据降维（特征缩减）3.python...

2019-03-24 18:29:48 162

原创机器学习实战读书笔记系列6——支持向量机

1.概念：支持向量：离分隔超平面最近的那些店分隔超平面：分类的决策边界，将数据分隔开来(wx+b)间隔：点到分隔超平面之间的距离label(w*x+b),其中label取+1，-12.先找支持向量（具有最小间隔的点）SVM主要求alpha,和b再求w根据w*x+b的结果进行分类3.再对间隔最大化...

2019-03-24 18:29:24 104

原创机器学习实战读书笔记系列7——利用AdaBoost元算法提高分类性能

元算法（集成方法）：是对其他算法组合的一种方式。（K近邻、朴素贝叶斯、逻辑回归、决策树、支持向量机）、集成形式：不同算法的集成；同一算法在不同设置下的集成；数据集不同部分分配给不同分类器之后的集成。代表：AdaBoost1.基于数据集多重抽样的分类器1.1 bagging(自举汇聚法）:基于数据随机抽样的分类器构建方法算法过程：从原始数据集中抽新数据集。每次抽取n个样本，原始数据集中...

2019-03-24 18:28:48 353

原创《python数据分析》遇到的问题

结构化数据：多维数组（矩阵）表格型数据间隔平均或不平均的时间序列

2019-03-24 18:27:57 638

原创机器学习实战系列1——基础

第一部分——分类监督学习监督学习：给定输入样本集，计算出目标变量的结果。目标变量：将分类问题中的目标变量称为类别。 1. 标称型：在有限目标集中取值，离散型，如分类 2. 数值型：可以从无限的数值集合中取值，连续型，主要用于回归分析机器学习：把无序的数据转换成有用的信息。两大任务： 1.分类：分类算法存在非均衡分类的问题，产生原因是因为训练样本某...

2019-03-24 18:26:42 139

原创上手机器学习项目——预测房价

数据流水线：一系列的数据处理组件。组件间是独立的、异步运行、组件间的接口只是数据容器给定商业目标，确定输出划定问题：监督or非监督or强化学习？分类or回归？强化or在线？选择性能指标回归问题典型指标数均方根误差（RMSE）、平均绝对误差（MAE）核实假设获取数据（下载数据）简单查看数据结构（数据描述、数据属性、）创建测试集有不同的方法（随机抽样、分层抽样）探索数据、可视化...

2019-03-24 18:23:05 238

原创分类问题集锦及练习

sklearn 数据划分方法 https://www.cnblogs.com/hellcat/p/7045585.htmlK-折交叉法留一法随机划分法准确率（P），召回率®、F1值、ROC曲线、阈值几者的关系？增加准确率会降低召回率，反之亦然。这叫做准确率与召回率之间的折衷如何计算（输入：样本真实标签、样本预测标签）ROC是真正例率（正例被正确分类的，召回率）比假正例率（反例被错...

2019-03-24 18:21:50 328

原创 gensim word2vec

1.参数说明gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5, min_count=5, max_vocab_size=None, sample=0.001,seed=1, workers=3,min_alpha=0.0001, sg=0, hs=0, negative=5, cbow_mea...

2019-03-24 18:20:25 275

原创 IDEA初上手的一天

(https://blog.csdn.net/allcovetalllose/article/details/78923105)(https://blog.csdn.net/hhtnan/article/details/78391409)

2019-03-24 18:17:53 136

原创中餐馆过程伪代码及python实现

中餐馆两种采样方式：

2018-07-12 18:39:30 2684

原创 1.2将文本当做词链表

1.链表：指的是python中列表里的内容，是存储文本的方式。 e.g. sent1=[‘call’,’me’,’Ishmael’,’.’] 操作：连接（加法）sent1+sent2 追加元素 sent1.append( ) 2.索引：列表中某个文本的位置的数字,可用来获取文本中词汇，从0开始。 e.g. sent1[0]=’c

2017-09-09 13:16:35 233

原创 1.1搜索文本和计数词汇常用的函数

最近在学《python自然语言处理》这本书，写博客就当做笔记concordance函数关键词语索引，显示某个词的出现情况和上下文text1.concordance（"monstrous")similar函数查询括号中相关词在上下文相似的词语text1.similar("monstrous")common_contexts函数研究共用两个或者两个以上词汇的上下文 tex

2017-09-09 11:27:49 874

sinat_37386947的博客