kewilling
码龄7年
关注
提问 私信
  • 博客:100,399
    100,399
    总访问量
  • 23
    原创
  • 350,520
    排名
  • 80
    粉丝
  • 0
    铁粉

个人简介:All things are difficult before they are easy.

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2018-09-26
博客简介:

kewill的博客

博客描述:
All things are difficult before they are easy.
查看详细资料
个人成就
  • 获得53次点赞
  • 内容获得15次评论
  • 获得427次收藏
  • 代码片获得228次分享
创作历程
  • 5篇
    2020年
  • 19篇
    2019年
成就勋章
TA的专栏
  • hive
    3篇
  • 云计算
  • 预测分析
    7篇
  • ML
    9篇
  • 指数系列
    11篇
  • 人脸识别
    1篇
兴趣领域 设置
  • 数据结构与算法
    排序算法推荐算法
  • 大数据
    hive
  • 人工智能
    机器学习深度学习神经网络pytorch数据分析scikit-learn聚类集成学习迁移学习分类回归
创作活动更多

新星杯·14天创作挑战营·第9期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛! 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见 https://bbs.csdn.net/topics/619626357 2、文章质量分查询:https://www.csdn.net/qc

474人参与 去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【指数编制系列九】重复交易指数法

  重复交易法最早由Baily,Muth 和Nourse 于1963 年提出,经Case 和Shiller 的一系列重要工作而得以在房地产领域迅速推广。重复交易指数利用同一样本在不同时期发生的多次交易数据来计算房价指数,同样是一种被广泛应用的房价指数方法。与特征价格法不同,由于采用了差分模型,且假设住房特征和其特征价格不随时间发生变化,重复交易法仅通过观察每一个住房样本在两次交易中的价格变化情况来...
原创
发布博客 2019.11.25 ·
1226 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Linux常用命令

文件和目录cd /home 进入 ‘/ home’ 目录’cd … 返回上一级目录cd …/… 返回上两级目录cd - 返回上次所在的目录pwd 显示工作路径ls 查看目录中的文件ls -l 显示文件和目录的详细资料文件搜索find / -name file1 从 ‘/’ 开始进入根文件系统搜索文件和目录find /home/user1 -name *.bin 在目录 ‘/ home/user1’ 中搜索带有’.bin’ 结尾的文件find /usr/bin -type f -mtim
原创
发布博客 2020.11.30 ·
246 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive中常用函数用法汇总(持续更新)

1.去除字段前后空格trim() 函数:去掉字段值前后空格2.多个字符串连接CONCAT()函数用于将多个字符串连接成一个字符串。CONCAT(str1,str2,…)使用函数CONCAT_WS()。使用语法为:CONCAT_WS(separator,str1,str2,…)3.将分组中的某列转为一个数组Hive中collect相关的函数有collect_list和collect_set。 它们都是将分组中的某列转为一个数组返回,不同的是collect_list不去重而collect_set去重
原创
发布博客 2020.07.01 ·
1221 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

hive中跨年周处理

按照习惯,跨年的周中的在哪一年的天数多就算哪一年的周,所以日期所在的年不一定是周所在的年,比如2016-01-01是2015年53周。可以通过以下sql判断跨年的周属于哪一年,实现得到前一天所在的年周。select year(date_sub(next_day(date_sub(current_date,1),'MO'),4))*100+weekofyear(date_sub(current_date,1));...
原创
发布博客 2020.06.22 ·
1516 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

【小红书排名规则】社区规则、账号权重、笔记权重和推荐规则

小红书社区规则  重新上架以来,小红书的审核也更加严格了,所以今天来帮大家梳理一下小红书社区的规则。先说三个机制,分别是公平机制、监测机制和检测机制。01 公平机制  因为现在的小红书笔记生产量太多了,一秒时间同类话题可能会产生5-6篇,为了避免笔记排名浮动太快,小红书设置了排名延迟更新,这也是为什么我们投放的笔记要过十天半个月才能看到置顶效果。02 监测机制  笔记发出来之后,平台会监...
原创
发布博客 2020.03.16 ·
14999 阅读 ·
8 点赞 ·
0 评论 ·
37 收藏

【电影评分算法】豆瓣、猫眼、IMDb

豆瓣评分:  评分对象——豆瓣注册用户(注册比较久的老用户评分才有作用,新用户的评分仅作参考)且“非正常打分”的帐号;  规则——一人一票,一星至五星,最后换算成10分制;  算法——加权平均,权重为打分用户数的百分比;  假设评分一星到五星的人数分别为A,B,C,D,E。那么豆瓣分=(A÷ (A+B+C+D+E))×2+(B÷ (A+B+C+D+E))×4+(C÷ (A+B+C+D+E...
原创
发布博客 2020.03.04 ·
9063 阅读 ·
1 点赞 ·
0 评论 ·
26 收藏

【云计算基础四】云数据库RDS

All things are difficult before they are easy.
原创
发布博客 2020.02.28 ·
84 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【云计算基础三】私有网络VPC

All things are difficult before they are easy.
原创
发布博客 2020.01.21 ·
142 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【云计算基础二】弹性计算

All things are difficult before they are easy.
原创
发布博客 2020.01.15 ·
118 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【云计算基础一】云计算概述

All things are difficult before they are easy.
原创
发布博客 2020.01.11 ·
68 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Python机器学习预测分析算法实战七】集成算法

  集成算法(Emseble Learning)是构建多个学习器,然后通过一定策略结合把它们来完成学习任务的,常常可以获得比单一学习显著优越的学习器。  集成方法是由两层算法组成的层次架构。底层算法叫做基学习器。基学习器是单个机器学习算法,这些算法在后续会被集成到一个集成方法中。决策树是最常用的基学习器之一。目前广泛使用的上层算法主要有:投票(bagging)、提升(boosting)、随机森林...
原创
发布博客 2019.12.31 ·
820 阅读 ·
0 点赞 ·
0 评论 ·
8 收藏

pyspark.sql DataFrame创建及常用操作

Spark SQL 简介及参考链接Spark 是一个基于内存的用于处理大数据的集群计算框架。它提供了一套简单的编程接口,从而使得应用程序开发者方便使用集群节点的CPU,内存,存储资源来处理大数据。Spark API提供了Scala, Java, Python和R的编程接口,可以使用这些语言来开发Spark应用。为了用Spark支持Python,Apache Spark社区发布了一个工具PySp...
转载
发布博客 2019.12.19 ·
641 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

【Python机器学习预测分析算法实战六】使用惩罚线性回归求解二分类问题

  本节详细介绍如何使用惩罚线性回归来求解二分类问题,具体使用python的ElasticNet包。其求解步骤为: 将二分类问题转换为回归问题。构建一个包含实数标签的向量,将其中一个类别输出设置为0,另一个类别输出设置为1。 执行交叉验证。因为需要对每一份数据计算错误,交叉验证稍微复杂。Scikit-learn包含一些便捷的功能来将这些计算流水化。  下面以水雷数据集为例进行试验并具体说...
原创
发布博客 2019.12.17 ·
639 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【Python机器学习预测分析算法实战五】最小角回归LARS

  通过前面的介绍,我们了解到求解惩罚性回归模型等价于求解一个优化问题,有大量的通用算法可以求解。这次介绍一个非常快速敏捷的算法——最小角度回归(LARS)算法。LARS算法可以理解为一种改进的前向逐步回归算法。前向逐步回归算法和最小角度回归算法(LARS):  前向逐步回归算法过程如下: 将回归系数的所有值初始化为0 在每一步使用已经选择的变量找到残差值 确定哪个未使用的变量能够...
原创
发布博客 2019.12.16 ·
1597 阅读 ·
2 点赞 ·
0 评论 ·
19 收藏

【Python机器学习预测分析算法实战四】前向逐步回归和岭回归

模型与数据的均衡:前向逐步回归和岭回归  最小二乘法(OLS)是较为常用的一种回归方法,作为一个原型很好的展示了机器学习算法的方方面面。它是一个有监督学习算法,包括训练过程和测试过程。但是在使用的OLS的时候经常会遇到过拟合的情况。过拟合的原因是训练数据和测试数据上的错误存在显著的差异。在原始的公式中,当过拟合发生时,没有办法阻止学习过程。下面介绍两种优化OLS的方法:前向逐步回归和岭回归。 ...
原创
发布博客 2019.12.12 ·
1427 阅读 ·
0 点赞 ·
0 评论 ·
8 收藏

【Python机器学习预测分析算法实战三】预测模型性能评估及影响因素

  选择并拟合一个预测算法的最终目标是获得最佳可能的效果。能够达到的性能取决于3方面的因素:问题的复杂性,模型算法的复杂性,可用数据的丰富程度。理解函数逼近  预测问题包括两种变量:  第一种变量是尝试要预测的变量;  第二种变量是用来进行预测的变量。  函数逼近问题是要构建以第二类变量作为输入的函数来预测第一类变量。要预测的变量一般有多种正式的名称,如标签、目标、结果。用于构建预测的输...
原创
发布博客 2019.12.12 ·
4737 阅读 ·
4 点赞 ·
0 评论 ·
30 收藏

【Python机器学习预测分析算法实战二】源数据处理与分析

  在构建机器学习预测分析模型之前,我们首先要做的就是把源数据基本情况搞清楚搞明白。源数据分为属性数据和标签数据,属性数据就是数学含义下的自变量,标签数据就是数学含义下的因变量(函数)。属性和标签的不同类型决定模型的选择。初始审视数据集时,需要考虑数据集的相关特性,如下:• 行数、列数• 类别变量的数目、类别变量的取值范围• 缺失的值(检测与处理)• 属性和标签的统计特性• 异常值(检测...
原创
发布博客 2019.12.06 ·
561 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

【Python机器学习预测分析算法实战一】预测分析核心算法分类

  最近在学习机器学习预测分析算法,在学习过程中顺便将关键笔记记录下来,一方面巩固认知另一方面便于以后的查找,如果能对大家有帮助和参考那就更好了。  首先机器学习预测分析算法解决的问题通常是指“函数逼近问题”,函数逼近问题是有监督学习问题的一个子集。线性回归和逻辑回归是解决这类问题最常见的算法。函数逼近问题包含了各种领域中的分类问题和回归问题,如文本分类、搜索响应、广告投放、垃圾邮件过滤、用户行...
原创
发布博客 2019.12.04 ·
1031 阅读 ·
0 点赞 ·
1 评论 ·
3 收藏

【指数编制系列八】特征价格指数编制方法

  在前面一篇介绍价格指数时提到过异质性问题,当商品具有异质性的时候,采用传统的价格指数模型是不合适的。而特征价格模型是一种可以适用于异质性商品的价格指数模型。  特征价格模型的研究起源于20世纪20、30年代。在研究价格与质量之间的关系的文献中,最早由Waugh提出,他利用蔬菜质量的改变探讨了蔬菜质量对蔬菜价格的影响。他认为产品本身质量的改变,对于产品价格是有影响的,而这也是特征价格最早和最基...
原创
发布博客 2019.11.25 ·
2315 阅读 ·
1 点赞 ·
0 评论 ·
13 收藏

【指数编制系列七】价格指数编制方法

  关于价格指数的定义,《CPI手册》中指出价格指数用于衡量一组价格在某一时期的相应变化幅度或百分比变化,它可以衡量当特定商品或服务价格发生变化对该组相对价格变动的影响,但由于不同商品和服务的价格变化并非同步,价格指数反映的是“平均”变化。例如,以某一时期为基期,该时期价格指数为 1或100,而其他时期的价格指数表示为相对于价格基期而言的平均变化幅度或百分比变化。价格和价格指数分别从绝对水平和相对...
原创
发布博客 2019.11.25 ·
8757 阅读 ·
4 点赞 ·
2 评论 ·
26 收藏
加载更多