Alien_lily-CSDN博客

原创 hive 修改字段类型和增加字段表

Alter table 表名 change column 原字段名称现字段名称数据类型

2019-08-01 13:44:15 5327

看了一篇文章，感觉全篇都是干货。具体参见如何分析账号异常？看这里！购物、支付、游戏、社交软件帐号被盗的新闻屡见不鲜，危害之大可想而知!常用的网络帐号，主机帐号被盗可能会造成信息泄露，资金被转走，或者被作为跳板对重要资产进行一系列的攻击行为。这些损失由谁来负责，很多行业没有明确的认定和追查方法，因而最大的受害者往往是用户本身。一个企业有很多员工，每个人有很多类型的帐号。由于全体人员帐号总体数目...

2019-01-23 16:04:54 943

转载解释下什么是最小二乘法

主要参考维基百科最小二乘法，也叫作最小平方法（这样比较好理解）是一种数学优化技术。主要是通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便的求得未知的数据，并且使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法是对过度确定系统，即其中存在比未知数据更多的方程组，以回归分析求得近似解的标准方法。在这整个解决方案中，最小二乘法演算为每一方程式的结果中，将残差平方和的...

2018-11-28 17:30:06 4806

转载 tableau面试问题及答案

什么是Tableau？Tableau是一种商业智能软件，允许任何人连接到相应的数据，然后可视化并创建交互式的可共享仪表板。什么是数据源页面？可在其中设置数据源的页面。 “数据源"页面通常由四个主要区域组成:左窗格，联接区域，预览区域和元数据区域。什么是Tableau中的提取？可用于提高性能和离线分析的数据源的已保存子集。Tableau中的格式窗格是什么？一个窗格，其中包含控制整个工作...

2018-11-27 10:56:08 11686 4

翻译 python-正则表达式re

匹配集合与补集字符组表达式 […] 匹配括号中列出的任一个字符[abc] 可以匹配字符 a 或 b 或 c区间形式 [0-9] 是顺序列出的缩写，匹配所有十进制数字字符 [0-9a-zA-Z]匹配所有字母（英文字母）和数字[^…] 中的 ^ 表示求补，这种模式匹配所有未在括号里列出的字符[^0-9] 匹配所有非十进制数字的字符[^ \t\v\n\f\r] 匹配所有非空白字符...

2018-11-23 15:06:40 327

原创 python-编码问题（字符编码问题处理）

编码和解码编码集解决乱码编码和解码编码是为了让机器读懂语言。即输入的是字符“中文”，那么编码就是将“中文”编码为二进制格式让机器读懂在Python中，机器其实是不认识unicode 的，而是接收的 str即使输入的数据是 unicode 的，而在Python内部都会将 unicode 自动转为strstr 通过解码函数 decode() 转换为 unicode ， unico...

2018-11-23 09:50:14 381

转载 python-SciPy模块

原文：https://blog.csdn.net/qq_34535410/article/details/53811821

2018-11-13 15:23:11 754

转载关于算法-推荐阅读

[1] 机器学习-波澜壮阔40年 SIGAI 2018.4.13. [2]学好机器学习需要哪些数学知识？[3]人脸识别算法演化史基于深度学习的目标检测算法综述卷积神经网络为什么能称霸计算机视觉领域？用一张图理解SVM的脉络人脸检测算法综述理解神经网络的激活函数深度卷积神经网络演化历史及结构改进脉络-40页长文全面解读理解梯度下降法循环神经网络综述-语音识别与自然语言处理的利器...

2018-11-01 14:00:12 396

转载算法工程师

**数学知识编程能力机器学习与深度学习的知识应用方向的知识对自己所做的问题的思考和经验**

2018-11-01 09:22:46 321

转载数据分析基础-统计学

变量我们需要了解几个名词：变量、常量、连续变量、离散变量、连续数据、离散数据、自变量、因变量、函数、单值函数、多值函数以上名词大家都比较理解，我这边就解释下什么是单值函数和多值函数：单值函数：若对定义域每一个自变量x，其对应的函数值f(x)是唯一的，则称f(x)是单值函数。多值函数：若│f(x)│=2x-1，则f(x)=±(2x-1)，一个自变量x对应两个函数值。频数分析数组阵列：...

2018-10-31 10:11:50 3322

原创 23种Pandas核心操作

读取数据集pd.read_csv(“csv_file”)pd.read_excel("excel_file")保存数据到csv文件，且不带索引df.to_csv("data.csv", sep=",", index=False)基本的数据集特征信息删除缺失数据df.dropna(axis=0, how='any')替换缺失数据df.replace(to_replace=No...

2018-10-25 17:06:23 312

原创深入浅出SQL

创建数据库CREATE DATABASE 数据库名称;使用数据库use 数据库名称;SQL命令语句本身不区分大小写，但是命令大写是良好的SQL编程习惯。需要注意的是分号表示命令的结束。创建表：CREATE TABLE 表名称(doughnut_name VARCHAR(10),doughnut_type VARHAR(6)); --'VARCHAR'是可变动字符的意思，用...

2018-10-24 09:58:09 696

原创统计学基础

为什么要学统计学是一门收集、整理和分析统计数据的科学方法其目的是探索数据内在的数量规律性，以达到对客观事物的科学认识统计学研究随机现象，以推断为特征，由部分推及全体的思想贯穿于统计学的始终未完待续~...

2018-10-18 17:16:23 272

转载特征工程是什么？

原文来自：http://www.cnblogs.com/jasonfreak/p/5448385.html

2018-10-18 10:31:06 225

原创特征工程

特征工程其实是一个如何展示和表现数据的问题，在实际工作中需要把数据以一种“良好”的方式展示出来，使得能够使用各种各样的机器学习模型来得到更好的效果。如何从原始数据中去除不佳的数据，展示合适的数据就成为了特征工程的关键问题。

2018-10-18 10:22:28 225

原创常用的特征选择方法

特征选择主要有两个功能：减少特征数量、降维，使模型泛化能力更强，减少过拟合增强对特征和特征值之间的理解去掉取值变化小的特征假如说头一个特征值只有0和1，并且在所有的输入样本中，95%以上的取值都是0，那其实我们可以认为这个特征作用不大，可分析性不大没啥意义。一般会把它作为特征选择的预处理，先去掉那些取值变化小的特征，然后再从接下来提到的特征选择方法中选择合适的进行进一步的特征选择。单变量...

2018-10-18 10:14:07 843

原创 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)

报错：UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-3: ordinal not in range(128)解决方法：在文件开头添加：import sys;reload(sys);sys.setdefaultencoding(“utf8”)...

2018-10-11 10:52:01 16952 4

原创 Python编码错误的解决办法SyntaxError: Non-ASCII character '\xe5' in file

错误在编写Python时，当使用中文输出或注释时运行脚本，会提示错误信息：SyntaxError: Non-ASCII character '\xe5' in file *******查找原因python的默认编码文件是用的ASCII码，而你的python文件中使用了中文等非英语字符。解决在Python源文件的最开始一行，加入一句：coding=UTF-8（等号换为”:“也可以）...

2018-10-11 09:17:50 749

原创数据分析岗位职责

**大数据分析师-岗位职责：**1、负责大数据数据分析和挖掘平台的规划、开发、运营和优化；2、能够根据项目设计开发数据模型、数据挖掘和处理算法；通过数据探索和模型的输出进行分析，给出分析结果；3、具有丰富的数据分析、挖掘、数据仓库建模的项目实践经验，擅长常用的统计方法如：线性回归、逻辑回归、实验设计、市场分析、聚类、分群等；4、参与并审核数据库设计，纠正已有的不合理的db设计；5、故障...

2018-10-09 16:30:11 11049

原创 spark-实操笔记

获取当前日期 def getNowDate():String={ var now = new Date() var dateFormat = new SimpleDateFormat("yyyy-MM-dd") var today = dateFormat.format( now ) today }获取以前的日期 def getPreda...

2018-08-24 17:10:43 313

转载常见用户行为分析模型解析

具体参见-神策数据行为分析常用名词维度维度描述的是一个事物身上所具备的特征或属性指标指标，即具体的数值。比如访客、页面浏览量、停留时长都属于常见的指标展示和点击展示，指页面上元素的曝光次数。点击，指页面元素被用户点击的次数访客英文为 Visitor，通俗解释为访问网站或 App 的人。前面加上 Unique 后，即我们平常说的 UV，唯一身份访客。对于数据统计工...

2018-08-24 15:56:36 9247

原创 spark常见错误

spark常见错误刚开始接触spark总是遇到一些问题，后续会继续补充。 1. Exception in thread “main” org.apache.spark.sql.AnalysisException: Detected cartesian product for LEFT OUTER join between logical plans LocalLimit 21 出现错误，这...

2018-08-24 14:54:13 11802 2

决策树分类算法在课程成绩预测中的应用

本研究基于决策树分类算法，探索了其在课程成绩预测中的应用。通过收集某课程学生的课程学习数据和期末考试成绩数据，我们构建了一个数据集，包含学号、姓名、性别、出勤率、小组讨论、课堂互动、课后作业以及期末成绩等8个变量。首先，对数据进行了预处理和描述统计分析，然后使用决策树模型进行建模和预测。在模型构建过程中，我们采用了过采样技术（SMOTE）处理数据不平衡问题，并通过网格搜索法（GridSearchCV）对模型进行参数调优。实验结果表明，经过调优的决策树模型在课程成绩预测方面取得了良好的效果。在测试集上，模型的准确率达到了0.737，相较于调优前的模型有了显著提升。同时，通过对模型的特征重要性分析，我们发现参与指数和课后作业对于成绩预测起到了关键作用，而性别、小组讨论和课堂互动的影响相对较小。综上所述，基于决策树模型的课程成绩预测研究为教育决策提供了有价值的信息和指导，并具有进一步优化预测准确性的潜力。

2023-07-08

淘宝母婴购物可视化分析报告

母婴用品是淘宝的热门购物类目，随着国家鼓励二胎、三胎政策的推进，会进一步促进了母婴类目商品的销量。与此年轻一代父母的育儿观念也发生了较大的变化，因此中国母婴电商市场发展形态也越来越多样化。随之引起各大母婴品牌更加激烈的争夺，越来越多的母婴品牌管窥到行业潜在的商机，纷纷加入母婴电商，行业竞争越来越激烈。各平台以及商家为了提高销量，继续保持效益增长，纷纷采取更加精细化的运营模式，即使用数据分析驱动业务增长，通过了解核心业务指标对销量的影响，有针对性的对业务的各个流程以及产品服务进行优化，最终达到帮助商家提高销量，增加收益的目的。

2023-07-08

基于多元线性回归模型的医疗费用预测分析

本次数据来源与阿里云天池大赛医疗费用个人数据集，对数据进行删除重复值处理、缺失值处理（无缺失数据），以及分类变量标签化处理。最后得到多元线性回归模型的数据，我们使用OLS函数创建了一个回归模型对象，并将因变量y和自变量X作为参数传递给该函数。该函数会自动拟合最小二乘回归模型，找到最优的回归系数。

2023-07-08

大数据在金融领域的应用 -基于XGBoost保险反欺诈预测

本文以保险风控为背景，保险是重要的金融体系，对社会发展，民生保障起到重要作用。保险欺诈[1]问题在近年来不断增加，对保险行业和社会民众造成了严重的经济损失和信任危机。为了解决这一问题，利用数据挖掘和机器学习方法来识别保险欺诈行为并预测潜在的欺诈者成为关键。通过分析和挖掘数据集中的特征和模式，我们可以揭示与保险欺诈相关的因素，例如个人背景、历史记录和行为模式等。基于这些发现，构建一个准确可靠的机器学习模型可以预测个体从事保险欺诈的概率。解决这些问题将为保险行业提供有效的风控手段，保障社会民众的利益和安全，提高整个保险体系的可持续发展和社会信任度。在本次研究中，我们基于XGBoost算法，利用保险反欺诈数据集进行了保险欺诈行为的预测。通过完成这个研究项目，我们熟悉了一套完整的数据挖掘流程，包括数据预处理、特征工程、模型构建和评估等环节。同时，我们掌握了机器学习算法建模的实例，学会了如何使用XGBoost模型来解决保险欺诈识别的问题。

2023-07-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Alien_lily的博客

原创 hive 修改字段类型和增加字段表

转载账号异常分析

转载解释下什么是最小二乘法

转载 tableau面试问题及答案

翻译 python-正则表达式re

原创 python-编码问题（字符编码问题处理）

转载 python-SciPy模块

转载关于算法-推荐阅读

转载算法工程师

转载数据分析基础-统计学

原创 23种Pandas核心操作

原创深入浅出SQL

原创统计学基础

转载特征工程是什么？

原创特征工程

原创常用的特征选择方法

原创 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)

原创 Python编码错误的解决办法SyntaxError: Non-ASCII character '\xe5' in file

原创数据分析岗位职责

原创 spark-实操笔记

转载常见用户行为分析模型解析

原创 spark常见错误

决策树分类算法在课程成绩预测中的应用

淘宝母婴购物可视化分析报告

基于多元线性回归模型的医疗费用预测分析

大数据在金融领域的应用 -基于XGBoost保险反欺诈预测

数据质量分析指标

数据挖掘知识内容整理

电商建模相关标签整理

空空如也