自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 大数据常见面试题

一、数据分层的原则是什么?为什么这样分?每层的界限是什么?分层优点:复杂问题简单化、清晰数据结构(方便管理)、增加数据的复用性、隔离原始数据(解耦)ods 原始数据层 存放原始数据,保持原貌不做处理dwd 明细数据层 对ods层数据清洗(去除空值,脏数据,超过极限范围的数据)dws 服务数据层 轻度聚合ads 应用数据层 具体需求数仓中各层建的表都是外部表1,从对应用的支持来说,越靠上的层次,对应用越友好。比如APP层,基本是完全为应用设计。DWS层的话,相对来讲就会有一点点理解成本,

2021-06-26 16:03:43 290

原创 实习面试总结

一、网易传易面试一面:(技术面)(40分钟)1.问了问MapReduce全过程,Map之后的数据是不是有序的2.hdfs默认存储块大小128M3.一个258M的数据怎么存入hdfs中4.hdfs的切片机制5.如何处理小文件6.主语言是什么,python做分析7.sql题目8.为什么要用presto,优势是什么二面:(技术面)(21分钟)1.讲述一下实习项目2.讲述一下你在实习项目中做的亮点3.问了随机森林的原理(真的全忘了)三面:(hr经理面)(15分钟)1.为什么本科在本省,

2021-06-25 09:49:48 97

原创 pandas、numpy、matplotlib的常用命令以及SQL高性能

一、pandas的使用pandas的常用函数与命令可以参考网址pandas的常用命令二、numpy的使用numpy的使用相对较局限,常用命令可以参考numpy的使用三、matplotlib的使用matplotlib和seaborn搭配使用,可以画更加绚丽的图两者的对比与差别...

2021-06-09 19:20:12 143

原创 面试-linux与git常用命令

Linux常用命令文件管理命令 ls:显示当前目录下文件。 cd:切换当前工作目录。 touch:创建普通文件。 rm:删除普通文件 rm -r:删除目录文件 mkdir:创建目录文件 mv:剪切、重命名 cp:拷贝 vim:文本编辑 pwd:显示当前位置 cat:查看文件权限管理命令 chmod:修改文件权限 chmod 644 filiname:修改权限:rwx:可读可写可执行:0~7数字可代表 (属主,同组用户,其他用户)系统管理命令

2021-06-09 16:21:54 73

原创 完美世界大数据笔试

首先说一下体验,与其说是大数据笔试不如说是java笔试,全是java基础的内容,就是八股文的那些东西,体验感极差,任何跟数据相关的几乎没有在题目中体现出来。JVM运行时的各部分的状态设计模式,还要通过java代码看懂属于哪种设计模式如何提高读写性能异常类的继承java修饰符的使用内部类的作用范围继承与重载看java代码计算结果hashmap,hashtable区别ArrayList,vector,linkedlist区别synchronized和volatile区别接口与抽象类的.

2021-05-10 09:48:49 305

原创 通过selenium+验证码识别实现自动登录

通过selenium以及第三方打码工具破解验证码,实现自动化登录,但是这还只是比较简单的验证码,类似于只有字母和数字的集合,其他类型的验证码还要再尝试一下。#!/usr/bin/env python# coding:utf-8#####超级鹰的使用模板类import requestsfrom hashlib import md5class Chaojiying_Client(object): def __init__(self, username, password, soft_.

2021-05-09 09:18:51 998 1

原创 selenium+pyquery自动化

使用selenium+pyquery爬取豆瓣top250,并保存数据库中(这里写自定义目录标题)from selenium import webdriverfrom selenium.webdriver.common.action_chains import ActionChainsimport osimport timefrom selenium.webdriver.common.keys import Keysfrom pyquery import PyQuery as pqimport

2021-05-07 20:48:05 143

原创 精益数据分析摘要与收获

来源于《精益数据分析》

2020-07-26 15:42:57 236

原创 偏态数据处理

对数变换:适用于相乘关系的数据、高度偏态的数据平方根变换:适用于泊松分布(方差与均数近似相等)的数据、轻度偏态的数据反正弦变换:适用于百分比的数据、中度偏态的数据倒数变换1/x:适用于两端波动较大的数据...

2020-07-26 09:38:22 1822

原创 解决spark运行中failed to locate the winutils binary in the hadoop binary path的问题

1.下载hadoop-common-2.2.0-bin并解压到某个目录https://github.com/srccodes/hadoop-common-2.2.0-bin2.设置hadoop.home.dirSystem.setProperty("hadoop.home.dir", "F:\\hadoop-common-2.2.0-bin-master")

2020-05-26 17:40:28 142

原创 调参方式

LGB的参数集合:bjective = ['regression', 'regression_l1', 'mape', 'huber', 'fair']num_leaves = [3,5,10,15,20,40, 55]max_depth = [3,5,10,15,20,40, 55]bagging_fraction = []feature_fraction = []drop_rat...

2020-04-22 20:13:52 305

原创 sklearn的常用机器学习算法参数总结

1.线性回归普通的线性回归使用最小二乘法进行

2020-04-22 17:22:29 1033

原创 特征融合(stacking)

特征融合是在参加数据挖掘比赛最后过程中提分的一种重要手段在做结果融合的时候,有一个很重要的条件是模型结果的得分要比较近似,然后结果的差异要比较大,这样的结果融合往往有比较好的效果提升这里主要分享stacking方式import numpyimport pandasimport seaborn as snsimport matplotlib.pyplot as pltfrom skl...

2020-04-20 18:40:32 3806

原创 数据挖掘-第一次参加天池比赛-探索性数据分析(EDA)

1.EDA目标EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。完成对于数据的探索性分析,并对于数据进行一些图表或者文字总结并打卡。...

2020-04-13 20:25:00 341

原创 数据挖掘-第一次参加天池比赛

零基础入门数据挖掘 - 二手车交易价格预测

2020-04-12 09:50:20 305

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除