APRIL_HU-CSDN博客

原创图学习-第一章可视化

#图的简单理解图是对象之间的关系及特征的表示形态，用于分析已知对象间关系规律，并应用于对关系网络中其他未知对象的特征或行为预测。#图的可视化-networkx*python 3.6，networks 2.4，matplotlib 3.1.3‘’’import networkx as nximport matplotlib.pyplot as plt##生成无向图G = nx.Graph()#添加节点G_karate = nx.karate_club_graph()for node in

2020-06-14 15:30:14 772

原创关于Maximum Likelihood Estimate（极大似然估计）的思考

一、MLE提出的背景通过维基百科查询得知，MLE由遗传学家及统计学家罗纳德.费雪在1912年至1922年间开始使用。由此联想到MLE的遗传学背景，在遗传学中，显性研究即为最大可能性研究，通过对于各独立个体计算发生或者存活概率，来确定最后显著表达的群体。在多个独立个体求集体存活的概率时，即为数学中的样本相互独立条件下，求此组样本的联合概率分布。通过当联合概率分布达到最大值时，求得对应的...

2018-02-27 20:33:01 943

原创关于场地营销的一些思考

免费即价值，普遍即渠道

2017-08-12 14:53:50 724

原创互联网营销之我见-篇1

太极生两仪，两仪生四象。

2017-07-17 12:33:35 448

原创 NEW RULE FOR THE NEW ECONOMY

读书就是和它博弈

2017-06-27 21:45:46 326

原创自动化文档学习-01

自动化生成word思路初步

2017-06-26 22:04:35 396

原创 VBA代码学习

RansorA.Copy '将RansorA中的内容复制到剪贴板RansorB.PasteSpecial Paste := xlPasteValues '将剪贴板中的内容复制到RansorB

2017-06-20 12:44:05 572

转载 VBA程序解释之学习

学习解释，学习语句

2017-06-18 23:00:28 1082

原创 Excel的VBA学习

sub初级学习

2017-06-18 17:33:10 500

原创移动支付的思考

移动支付端，支付宝、微信二分天下，它们成功在哪呢？未来会是信用的天下吗？会不会根本不再需要银行卡？

2017-06-15 22:56:39 487

原创 shell中的date和grep

在shell中利用date命令可以得到当前系统时间，常规命令：date -d "+1 month -1 day" +%Y%m%d，对于某个特定的时间而言，方法类似：date -d "$DATE +a month +b day“ +%Y%m%d，其中DATE可以设置为任意如20150501的时间形式，a，b表示正负整数，+%Y%m%d表示显示日期的形式，-d 表示以string形式输出日期。

2016-07-26 22:42:53 1536

原创统计学中条件概率之于贝叶斯思想

贝叶斯公式的对象是条件概率的子集。贝叶斯中的较多对于先验信息的估计方法，对于实际的问题解决具有更好的作用，相对于传统统计学而言。

2016-07-23 16:34:23 2470

原创 shell中awk，find，grep学习

在shell中运用awk，grep，find更多的时候是在对于文本进行操作。其中grep以及find相对好理解，grep结合固定的语法实现对文件中关键词的查找，其应用对象是文本；find的查找目的是文件，应用对象是路径，查找的方式依据于参数的不同而不同，相对简化的用法为：find .-name XXXX /usr/wenjianjia。

2016-07-12 21:25:23 447

原创 db2与hive中left join与left outer join的区别

db2中inner join没有左右之分，outer join有左右之分，其目的在于需要确定以谁为主表；left join与left outer join据查和实验没有区别；（链接：http://dbua.iteye.com/blog/712969）hive中不支持left join，支持left outer join;hive中left semi join作用类似于SQL中的in，以

2016-07-10 17:15:40 1751

原创分类算法中重要变量划分的实质

在分类算法中，确定对于分类效果好坏的变量的重要性时，并不一定需要从变量与分类标签的相关性出发，实际上，决定分类效果好坏的是不同类别的同一变量的差异性，此时，该变量的差异越大，基于此变量的分类效果就会越好。之前，讨论过，如何确定变量的重要性，有基于决策树分类划分的变量，也有基于逐步回归拟合的效果，其实质，在分类中，应是不同类别中具有较大差异的变量，分类的差异实际上就是靠这些变量体现出来的。

2016-01-20 10:12:07 704

原创 The imbalanced data

在机器学习中，比较侧重于算法的设计和实施，随着计算机的发展，想着如何更快更安全地处理数据，不过，在运用在各种机器学习的算法之前，需要首先对数据有一个比较好的考量。这里研究的问题是样本的不均衡性问题。对于常规的机器学习算法，决策树类的，如ID3，C4.5，CART等，在最终划分出子集之后，子集的类别是依据于“少数服从多数”的原则，也即是说，少数的数据效应被忽略，大叔的数据效应被放

2015-12-26 11:06:51 307

原创样本有偏时的思考

如何避免样本抽样有偏的情况发生在关联规则中，对于辛普森悖论的出现，即是由于样本有偏所导致规则提取的错误，在进行抽样时，如果没有比较客观地反映原始总体的信息，那么基于此，所得到的统计分析的结论以及假设检验，都是有错误的。对于这个问题的解决方案，1，多次抽样，将多次抽样的分布绘制出来，取相对集中部分的均值或者众数2，对于大的样本按照可利用的商业信息进行分层，再按照恰当比例在每个

2015-09-14 10:54:57 2660

原创腾讯笔试题之协变量中重要变量的衡量

问题描述：对于一个目标变量而言，当存在有多个自变量（协变量）时，如何确定其中的重要的变量，并且排序？我的解题思路：1，对于目标变量而言，可以参考协变量与目标变量之间的相关性的强弱 2,依据于协变量在拟合目标函数时，对于目标变量的方差的解释力度，可以以拟合优度作为衡量标准 3，

2015-09-07 15:31:34 1200

APRIL_HU的博客