- 博客(22)
- 资源 (3)
- 收藏
- 关注
转载 账号异常分析
看了一篇文章,感觉全篇都是干货。具体参见如何分析账号异常?看这里!购物、支付、游戏、社交软件帐号被盗的新闻屡见不鲜,危害之大可想而知!常用的网络帐号,主机帐号被盗可能会造成信息泄露,资金被转走,或者被作为跳板对重要资产进行一系列的攻击行为。这些损失由谁来负责,很多行业没有明确的认定和追查方法,因而最大的受害者往往是用户本身。一个企业有很多员工,每个人有很多类型的帐号。由于全体人员帐号总体数目...
2019-01-23 16:04:54 807
转载 解释下什么是最小二乘法
主要参考维基百科最小二乘法,也叫作最小平方法(这样比较好理解)是一种数学优化技术。主要是通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便的求得未知的数据,并且使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法是对过度确定系统,即其中存在比未知数据更多的方程组,以回归分析求得近似解的标准方法。在这整个解决方案中,最小二乘法演算为每一方程式的结果中,将残差平方和的...
2018-11-28 17:30:06 4718
转载 tableau面试问题及答案
什么是Tableau?Tableau是一种商业智能软件,允许任何人连接到相应的数据,然后可视化并创建交互式的可共享仪表板。什么是数据源页面?可在其中设置数据源的页面。 “数据源"页面通常由四个主要区域组成:左窗格,联接区域,预览区域和元数据区域。什么是Tableau中的提取?可用于提高性能和离线分析的数据源的已保存子集。Tableau中的格式窗格是什么?一个窗格,其中包含控制整个工作...
2018-11-27 10:56:08 11461 4
翻译 python-正则表达式re
匹配集合与补集字符组表达式 […] 匹配括号中列出的任一个字符[abc] 可以匹配字符 a 或 b 或 c区间形式 [0-9] 是顺序列出的缩写,匹配所有十进制数字字符 [0-9a-zA-Z]匹配所有字母(英文字母)和数字[^…] 中的 ^ 表示求补,这种模式匹配所有未在括号里列出的字符[^0-9] 匹配所有非十进制数字的字符[^ \t\v\n\f\r] 匹配所有非空白字符...
2018-11-23 15:06:40 290
原创 python-编码问题(字符编码问题处理)
编码和解码编码集解决乱码编码和解码编码是为了让机器读懂语言。即输入的是字符“中文”,那么编码就是将“中文”编码为二进制格式让机器读懂在Python中,机器其实是不认识unicode 的,而是接收的 str即使输入的数据是 unicode 的,而在Python内部都会将 unicode 自动转为strstr 通过解码函数 decode() 转换为 unicode , unico...
2018-11-23 09:50:14 328
转载 python-SciPy模块
原文:https://blog.csdn.net/qq_34535410/article/details/53811821
2018-11-13 15:23:11 717
转载 关于算法-推荐阅读
[1] 机器学习-波澜壮阔40年 SIGAI 2018.4.13. [2]学好机器学习需要哪些数学知识?[3]人脸识别算法演化史基于深度学习的目标检测算法综述卷积神经网络为什么能称霸计算机视觉领域?用一张图理解SVM的脉络人脸检测算法综述理解神经网络的激活函数深度卷积神经网络演化历史及结构改进脉络-40页长文全面解读理解梯度下降法循环神经网络综述-语音识别与自然语言处理的利器...
2018-11-01 14:00:12 331 1
转载 数据分析基础-统计学
变量我们需要了解几个名词:变量、常量、连续变量、离散变量、连续数据、离散数据、自变量、因变量、函数、单值函数、多值函数以上名词大家都比较理解,我这边就解释下什么是单值函数和多值函数:单值函数:若对定义域每一个自变量x,其对应的函数值f(x)是唯一的,则称f(x)是单值函数。多值函数:若│f(x)│=2x-1,则f(x)=±(2x-1),一个自变量x对应两个函数值。频数分析数组阵列:...
2018-10-31 10:11:50 3037
原创 23种Pandas核心操作
读取数据集pd.read_csv(“csv_file”)pd.read_excel("excel_file")保存数据到csv文件,且不带索引df.to_csv("data.csv", sep=",", index=False)基本的数据集特征信息删除缺失数据df.dropna(axis=0, how='any')替换缺失数据df.replace(to_replace=No...
2018-10-25 17:06:23 294
原创 深入浅出SQL
创建数据库CREATE DATABASE 数据库名称;使用数据库use 数据库名称;SQL命令语句本身不区分大小写,但是命令大写是良好的SQL编程习惯。需要注意的是分号表示命令的结束。创建表:CREATE TABLE 表名称(doughnut_name VARCHAR(10),doughnut_type VARHAR(6)); --'VARCHAR'是可变动字符的意思,用...
2018-10-24 09:58:09 667
原创 统计学基础
为什么要学统计学是一门收集、整理和分析统计数据的科学方法其目的是探索数据内在的数量规律性,以达到对客观事物的科学认识统计学研究随机现象,以推断为特征,由部分推及全体的思想贯穿于统计学的始终未完待续~...
2018-10-18 17:16:23 254
原创 特征工程
特征工程其实是一个如何展示和表现数据的问题,在实际工作中需要把数据以一种“良好”的方式展示出来,使得能够使用各种各样的机器学习模型来得到更好的效果。如何从原始数据中去除不佳的数据,展示合适的数据就成为了特征工程的关键问题。
2018-10-18 10:22:28 206
原创 常用的特征选择方法
特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解去掉取值变化小的特征假如说头一个特征值只有0和1,并且在所有的输入样本中,95%以上的取值都是0,那其实我们可以认为这个特征作用不大,可分析性不大没啥意义。一般会把它作为特征选择的预处理,先去掉那些取值变化小的特征,然后再从接下来提到的特征选择方法中选择合适的进行进一步的特征选择。单变量...
2018-10-18 10:14:07 802
原创 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)
报错:UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-3: ordinal not in range(128)解决方法:在文件开头添加:import sys;reload(sys);sys.setdefaultencoding(“utf8”)...
2018-10-11 10:52:01 16838 4
原创 Python编码错误的解决办法SyntaxError: Non-ASCII character '\xe5' in file
错误在编写Python时,当使用中文输出或注释时运行脚本,会提示错误信息:SyntaxError: Non-ASCII character '\xe5' in file *******查找原因python的默认编码文件是用的ASCII码,而你的python文件中使用了中文等非英语字符。解决在Python源文件的最开始一行,加入一句:coding=UTF-8(等号换为”:“也可以)...
2018-10-11 09:17:50 709
原创 数据分析岗位职责
**大数据分析师-岗位职责:**1、负责大数据数据分析和挖掘平台的规划、开发、运营和优化;2、能够根据项目设计开发数据模型、数据挖掘和处理算法;通过数据探索和模型的输出进行分析,给出分析结果;3、具有丰富的数据分析、挖掘、数据仓库建模的项目实践经验,擅长常用的统计方法如:线性回归、逻辑回归、实验设计、市场分析、聚类、分群等;4、参与并审核数据库设计,纠正已有的不合理的db设计;5、故障...
2018-10-09 16:30:11 10793
原创 spark-实操笔记
获取当前日期 def getNowDate():String={ var now = new Date() var dateFormat = new SimpleDateFormat("yyyy-MM-dd") var today = dateFormat.format( now ) today }获取以前的日期 def getPreda...
2018-08-24 17:10:43 287
转载 常见用户行为分析模型解析
具体参见-神策数据行为分析常用名词维度 维度描述的是一个事物身上所具备的特征或属性指标 指标,即具体的数值。比如访客、页面浏览量、停留时长都属于常见的指标展示和点击 展示,指页面上元素的曝光次数。点击,指页面元素被用户点击的次数访客 英文为 Visitor,通俗解释为访问网站或 App 的人。前面加上 Unique 后,即我们平常说的 UV,唯一身份访客。 对于数据统计工...
2018-08-24 15:56:36 9102
原创 spark常见错误
spark常见错误刚开始接触spark总是遇到一些问题,后续会继续补充。 1. Exception in thread “main” org.apache.spark.sql.AnalysisException: Detected cartesian product for LEFT OUTER join between logical plans LocalLimit 21 出现错误,这...
2018-08-24 14:54:13 11534 2
决策树分类算法在课程成绩预测中的应用
2023-07-08
大数据在金融领域的应用 -基于XGBoost保险反欺诈预测
2023-07-08
淘宝母婴购物可视化分析报告
2023-07-08
基于多元线性回归模型的医疗费用预测分析
2023-07-08
电商建模相关标签整理
2018-08-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人