kewilling-CSDN博客

原创 Linux常用命令

文件和目录cd /home 进入 ‘/ home’ 目录’cd … 返回上一级目录cd …/… 返回上两级目录cd - 返回上次所在的目录pwd 显示工作路径ls 查看目录中的文件ls -l 显示文件和目录的详细资料文件搜索find / -name file1 从 ‘/’ 开始进入根文件系统搜索文件和目录find /home/user1 -name *.bin 在目录 ‘/ home/user1’ 中搜索带有’.bin’ 结尾的文件find /usr/bin -type f -mtim

2020-11-30 14:13:52 230

原创 hive中常用函数用法汇总（持续更新）

1.去除字段前后空格trim() 函数：去掉字段值前后空格2.多个字符串连接CONCAT（）函数用于将多个字符串连接成一个字符串。CONCAT(str1,str2,…)使用函数CONCAT_WS（）。使用语法为：CONCAT_WS(separator,str1,str2,…)3.将分组中的某列转为一个数组Hive中collect相关的函数有collect_list和collect_set。它们都是将分组中的某列转为一个数组返回，不同的是collect_list不去重而collect_set去重

2020-07-01 17:37:47 1177

原创 hive中跨年周处理

按照习惯，跨年的周中的在哪一年的天数多就算哪一年的周，所以日期所在的年不一定是周所在的年，比如2016-01-01是2015年53周。可以通过以下sql判断跨年的周属于哪一年，实现得到前一天所在的年周。select year(date_sub(next_day(date_sub(current_date,1),'MO'),4))*100+weekofyear(date_sub(current_date,1));...

2020-06-22 11:12:23 1402

原创【小红书排名规则】社区规则、账号权重、笔记权重和推荐规则

小红书社区规则重新上架以来，小红书的审核也更加严格了，所以今天来帮大家梳理一下小红书社区的规则。先说三个机制，分别是公平机制、监测机制和检测机制。01 公平机制因为现在的小红书笔记生产量太多了，一秒时间同类话题可能会产生5-6篇，为了避免笔记排名浮动太快，小红书设置了排名延迟更新，这也是为什么我们投放的笔记要过十天半个月才能看到置顶效果。02 监测机制笔记发出来之后，平台会监...

2020-03-16 16:58:59 12367

原创【电影评分算法】豆瓣、猫眼、IMDb

豆瓣评分：评分对象——豆瓣注册用户（注册比较久的老用户评分才有作用，新用户的评分仅作参考）且“非正常打分”的帐号；规则——一人一票，一星至五星，最后换算成10分制；算法——加权平均，权重为打分用户数的百分比；假设评分一星到五星的人数分别为A,B,C,D,E。那么豆瓣分=(A÷ (A+B+C+D+E))×2+(B÷ (A+B+C+D+E))×4+(C÷ (A+B+C+D+E...

2020-03-04 15:01:10 8446

原创【Python机器学习预测分析算法实战七】集成算法

集成算法（Emseble Learning）是构建多个学习器，然后通过一定策略结合把它们来完成学习任务的，常常可以获得比单一学习显著优越的学习器。集成方法是由两层算法组成的层次架构。底层算法叫做基学习器。基学习器是单个机器学习算法，这些算法在后续会被集成到一个集成方法中。决策树是最常用的基学习器之一。目前广泛使用的上层算法主要有：投票（bagging）、提升（boosting）、随机森林...

2019-12-31 17:52:20 780

转载 pyspark.sql DataFrame创建及常用操作

Spark SQL 简介及参考链接Spark 是一个基于内存的用于处理大数据的集群计算框架。它提供了一套简单的编程接口，从而使得应用程序开发者方便使用集群节点的CPU，内存，存储资源来处理大数据。Spark API提供了Scala, Java, Python和R的编程接口，可以使用这些语言来开发Spark应用。为了用Spark支持Python，Apache Spark社区发布了一个工具PySp...

2019-12-19 15:20:14 618

原创【Python机器学习预测分析算法实战六】使用惩罚线性回归求解二分类问题

本节详细介绍如何使用惩罚线性回归来求解二分类问题，具体使用python的ElasticNet包。其求解步骤为： 将二分类问题转换为回归问题。构建一个包含实数标签的向量，将其中一个类别输出设置为0，另一个类别输出设置为1。 执行交叉验证。因为需要对每一份数据计算错误，交叉验证稍微复杂。Scikit-learn包含一些便捷的功能来将这些计算流水化。下面以水雷数据集为例进行试验并具体说...

2019-12-17 18:00:34 596

原创【Python机器学习预测分析算法实战五】最小角回归LARS

通过前面的介绍，我们了解到求解惩罚性回归模型等价于求解一个优化问题，有大量的通用算法可以求解。这次介绍一个非常快速敏捷的算法——最小角度回归（LARS）算法。LARS算法可以理解为一种改进的前向逐步回归算法。前向逐步回归算法和最小角度回归算法（LARS）：前向逐步回归算法过程如下： 将回归系数的所有值初始化为0 在每一步使用已经选择的变量找到残差值 确定哪个未使用的变量能够...

2019-12-16 18:03:26 1477

原创【Python机器学习预测分析算法实战四】前向逐步回归和岭回归

模型与数据的均衡：前向逐步回归和岭回归最小二乘法（OLS）是较为常用的一种回归方法，作为一个原型很好的展示了机器学习算法的方方面面。它是一个有监督学习算法，包括训练过程和测试过程。但是在使用的OLS的时候经常会遇到过拟合的情况。过拟合的原因是训练数据和测试数据上的错误存在显著的差异。在原始的公式中，当过拟合发生时，没有办法阻止学习过程。下面介绍两种优化OLS的方法：前向逐步回归和岭回归。 ...

2019-12-12 14:46:38 1378

原创【Python机器学习预测分析算法实战三】预测模型性能评估及影响因素

选择并拟合一个预测算法的最终目标是获得最佳可能的效果。能够达到的性能取决于3方面的因素：问题的复杂性，模型算法的复杂性，可用数据的丰富程度。理解函数逼近预测问题包括两种变量：第一种变量是尝试要预测的变量；第二种变量是用来进行预测的变量。函数逼近问题是要构建以第二类变量作为输入的函数来预测第一类变量。要预测的变量一般有多种正式的名称，如标签、目标、结果。用于构建预测的输...

2019-12-12 14:37:48 4454

原创【Python机器学习预测分析算法实战二】源数据处理与分析

在构建机器学习预测分析模型之前，我们首先要做的就是把源数据基本情况搞清楚搞明白。源数据分为属性数据和标签数据，属性数据就是数学含义下的自变量，标签数据就是数学含义下的因变量（函数）。属性和标签的不同类型决定模型的选择。初始审视数据集时，需要考虑数据集的相关特性，如下：• 行数、列数• 类别变量的数目、类别变量的取值范围• 缺失的值(检测与处理)• 属性和标签的统计特性• 异常值(检测...

2019-12-06 12:09:50 527

原创【Python机器学习预测分析算法实战一】预测分析核心算法分类

最近在学习机器学习预测分析算法，在学习过程中顺便将关键笔记记录下来，一方面巩固认知另一方面便于以后的查找，如果能对大家有帮助和参考那就更好了。首先机器学习预测分析算法解决的问题通常是指“函数逼近问题”，函数逼近问题是有监督学习问题的一个子集。线性回归和逻辑回归是解决这类问题最常见的算法。函数逼近问题包含了各种领域中的分类问题和回归问题，如文本分类、搜索响应、广告投放、垃圾邮件过滤、用户行...

2019-12-04 10:41:51 991 1

原创【指数编制系列九】重复交易指数法

重复交易法最早由Baily，Muth 和Nourse 于1963 年提出，经Case 和Shiller 的一系列重要工作而得以在房地产领域迅速推广。重复交易指数利用同一样本在不同时期发生的多次交易数据来计算房价指数，同样是一种被广泛应用的房价指数方法。与特征价格法不同，由于采用了差分模型，且假设住房特征和其特征价格不随时间发生变化，重复交易法仅通过观察每一个住房样本在两次交易中的价格变化情况来...

2019-11-25 18:15:24 1121

原创【指数编制系列八】特征价格指数编制方法

在前面一篇介绍价格指数时提到过异质性问题，当商品具有异质性的时候，采用传统的价格指数模型是不合适的。而特征价格模型是一种可以适用于异质性商品的价格指数模型。特征价格模型的研究起源于20世纪20、30年代。在研究价格与质量之间的关系的文献中,最早由Waugh提出,他利用蔬菜质量的改变探讨了蔬菜质量对蔬菜价格的影响。他认为产品本身质量的改变,对于产品价格是有影响的,而这也是特征价格最早和最基...

2019-11-25 17:39:11 2136

原创【指数编制系列七】价格指数编制方法

关于价格指数的定义，《CPI手册》中指出价格指数用于衡量一组价格在某一时期的相应变化幅度或百分比变化，它可以衡量当特定商品或服务价格发生变化对该组相对价格变动的影响，但由于不同商品和服务的价格变化并非同步，价格指数反映的是“平均”变化。例如，以某一时期为基期，该时期价格指数为 1或100，而其他时期的价格指数表示为相对于价格基期而言的平均变化幅度或百分比变化。价格和价格指数分别从绝对水平和相对...

2019-11-25 16:13:53 8042 2

原创【指数编制系列六】景气指数编制方法

景气是经济景气的简称，指经济总体的运行发展态势和活跃程度，是用来分析经济活跃程度的经济概念。经济活动发展具有周期性扩张的特征，因而常用景气波动、景气循环等术语来表达经济周期波动的特点。经济景气周期波动理论是研究产业景气周期波动的理论基础，因此研究产业景气周期波动必须了解经济景气周期波动分析理论与实践的发展。经济周期波动的研究最早可回溯到19世纪50年代马克思、恩格斯揭示资本主义经济危机和...

2019-11-23 21:07:38 9180 6

原创【指数编制系列五】发展评价类指数编制方法

前面已经介绍了指数编制中会经常用到的一些数据处理方法：【指数编制系列二】数据标准化方法【指数编制系列三】权重设置方法【指数编制系列四】异常值和缺失值处理其实，在指数编制中还有一些其他的数据处理方法，如：逆指标处理、定性指标的量化方法、相关性检验、共线性处理方法、指数修正方法等，这里就不单独做一篇来介绍了，在后面的指数编制篇章中遇到会顺带介绍一下。本篇主要介绍一下发展指数模型。发...

2019-11-22 16:41:23 3428

原创【指数编制系列四】异常值和缺失值处理

在指数编制的过程中经常会遇到原始数据出现数据异常或者数据缺失情况，数据质量差往往是指数表达性差的一个主要原因，在编制指数的过程中不可避免的会遇到异常数据和数据缺失的情况。所以在固有原始数据的情况下，采用适当的方法处理这些异常值和缺失值，从而消除这些异常值和缺失值对指数结果的影响，使得指数结果更加稳定的接近市场真实状况。一．异常值处理方法介绍异常值是指样本中出现的明显偏离大多数观测值的个别值。...

2019-11-21 17:02:46 2575

原创【指数编制系列三】权重设置方法

在指数编制方法中，我们会经常提到加权平均法（这个在后面会介绍），这里面有一个重要的概念就是权重。权重的设定在指数编制过程中是非常重要的一步，适当的权重设定是指数客观准确反映目标变化趋势的一个关键要素。所以在设定权重的时候一定要选择合适的方法。权重是一个相对的概念，是针对某一指标而言。某一指标的权重是指该指标在整体评价中的相对重要程度。权重表示在评价过程中，是被评价对象的不同侧面的重要程度的定量分...

2019-11-20 18:06:15 11386

原创【指数编制系列二】数据标准化方法

在系统学习指数编制方法之前，先介绍一下几个指数编制过程中会经常使用的数据处理方法，如：数据标准化方法、权重设置方法、异常值处理方法。因为在后面指数编制过程中会经常用到这些方法。接下来我还是按照分类，分别介绍一下这些方法。这一篇，先介绍一下常用的几种数据标准化方法。除简单的统计对比分析外, 统计分析更多的是针对较复杂的社会经济现象, 需要用比较广泛的统计指标, 即利用由众多指标构成的统计指标体系进...

2019-11-19 17:01:16 5913

原创【指数编制系列一】指数分类、作用及基本编制流程

最近在学习一些数据算法，看到很多不错的总结性文章，突然想起自己这几年的工作主要集中在指数编制方面，也算是比较系统全面的研究并编制了一些指数，所以想把自己对指数编制的一些理解记录下来，做一个总结，方便查看同时也有助于个人理解。什么是指数？指数或称为统计指数，在统计学中占有重要地位，是分析社会经济现象数量变化的一种重要统计方法。18 世纪中叶，由于金银大量流入欧洲，欧洲物价飞涨，引起社会不安，于是...

2019-11-19 14:24:25 5634 1

原创 python多项式回归预测（基于淘宝双十一数据）

双11已经结束，按照天猫官方公布的最终数据看，今年的双11成交额为2684亿元，成功刷新了自己创下的商业纪录。然而，早在2019年4月就有网友指出，从天猫双十一的全天销售额来看，实际生产数据几乎完美地分布在三次回归曲线上，拟合度均超过99.94%，几乎为1，而且生产数据有10年之久，每一年的数据都这么高度拟合，数据过于完美。与此同时，这名网友还预测，“2019年淘宝双11当天的销售额为2675.3...

2019-11-13 16:42:20 4992 4

原创在python中利用OpenCV包实现人脸识别

一.实验环境1.python3.6环境，numpy包，OpenCV包，pillow包2.联想T470笔记本电脑，win10系统3.在测试目录下新建两个文件夹，一个是Facedata用于存放采集的样本图片，另一个是face_trainer用于存放人脸识别器训练后的模型数据。注：我的软件环境配置，全部在anaconda上完成的配置和管理的，非常方便。二.实验思路1.因为我们是在单机上进行人...

2019-11-08 15:01:56 647 1

kewill的博客