2019年06月_暮雪成冰

转载强大！基于拖放布局的 Twitter Bootstrap 网站生成器

简单的几个拖放操作就能做出漂亮的Twitter Bootstrap 网站？是的，LayoutIt是一个Twitter Bootstrap 界面生成器，能够帮助你快速制作出网站和界面模型，同时能够下载生成的网站代码。...

2019-06-29 17:08:17 420

转载上次未记得的知识点

查准率(Precision)直观理解为：在所有预测为正例中，真正正例的比例。（有点绕，多读几遍就好）查全率(Recall)直观理解为：在所有真实的正例中，预测为正例的比例。。...

2019-06-27 21:45:59 118

转载耗费时间的完美主义阻碍创新进取。

(2) 耗费时间的完美主义阻碍创新进取。Nikola Pavletich是我的博士后导师，也是对我影响最大的科学家之一，他有着极强的实验判断力和思维能力，做出了一系列包括p53、Rb、CDK complex、SCF complex、BRCA1等在内的里程碑式的研究工作，享誉世界结构生物学界，31岁时即升任正教授。1996年4月，我刚到Nikola实验室不久，纯化一个表达量相当高的蛋白Sm...

2019-06-27 13:30:02 224

所有成功的科学家一定具有的共同点，就是他们必须付出大量的时间和心血。这是一条真理。实际上，无论社会上哪一种职业，要想成为本行业中的佼佼者，都必须付出比常人多的时间。有时，个别优秀科学家在回答学生或媒体的问题时，轻描淡写地说自己的成功凭借的是运气，不是苦干。这种回答其实不够客观、也有些不负责任，因为他们有意忽略了自己在时间上的大量付出，而只是强调成功过程中的一个偶然因素，这样说的效果常常对年轻学生造...

2019-06-27 13:29:55 238

转载 python3将本地JSON数据文件（大文件）写入MySQL数据库

https://blog.csdn.net/layman2016/article/details/79252499最近导师给了一个yelp上的评论数据，数据量达到3.55个G，如果进行分析时直...

2019-06-27 13:25:04 1811

转载疑问：数据清洗过程中的“归一化”、“标准化”等等去量纲的操作应该在数据集划分前还是在数据集划分后？

问：如题。找到的相关解答：应该数据集划分后，不然测试集里面实际上是包含了训练集的信息的，这会影响模型的测试效果。但其实当样本量足够大的时候，随机划分的训练集和测试集其实是有相同的分布的，所以理论上是可以忽略上面说到的东西的。作者：like_red来源：CSDN原文：https://blog.csdn.ne...

2019-06-26 22:14:27 1738

转载机器学习中的训练集、验证集和测试集

在有监督(supervise)的机器学习中，数据集一般被分成2~3个，即：训练集(train set) 、验证集(validation set) 测试集(test set)。三个集合的定义为：Training set：A set of examples used for learning, which is to fit the parameters [i.e., weights] of ...

2019-06-26 22:14:23 968

转载机器学习非均衡分类问题

https://blog.csdn.net/power0405hf/article/details/45798245https://www.cnblogs.com/tonglin0325/p/6198283.html

2019-06-26 15:25:38 168

转载【Machine Learning】如何处理机器学习中的非均衡数据集？

https://www.cnblogs.com/rgvb178/p/9520485.html【Machine Learning】如何处理机器学习中的非均衡数据集？...

2019-06-26 15:15:53 1031

转载 GMM 模型需不需归一化问题

工作中遇到的问题：在GMM模型中添加一维scale比较大的特征，需不需要归一化答案：不需要，推导如下：

2019-06-26 12:13:06 798

转载一定要记住算法细节和代码 sklearn实现SVC算法

支持向量机（Support Vector Machine）指的是一系列机器学习方法，这类方法的基础是支持向量算法。SVM算法的基本原理是寻找一个能够区分两类的超平面（hyper plane），使得边际（margin）最大。所有座落在两边边际超平面上的点就被称为支持向量（Support Vector）。SVM算法既可用于回归问题，比如SVR(Support Vector Regression，...

2019-06-26 10:54:14 335

转载一定要记住细节和代码机器学习-实战-入门-linearSVC和SVC,身高体重与胖瘦关系的分类与预测

2019-06-25 16:09:46 1234

转载 sklearn实现SVC算法

支持向量机（Support Vector Machine）指的是一系列机器学习方法，这类方法的基础是支持向量算法。SVM算法的基本原理是寻找一个能够区分两类的超平面（hyper plane），使得边际（margin）最大。所有座落在两边边际超平面上的点就被称为支持向量（Support Vector）。SVM算法既可用于回归问题，比如SVR(Support Vector Regression，...

2019-06-25 16:02:41 1993

转载中签必备！科创板打新的6个关键问题，你都弄明白了？

本周四（6月27日），科创板第一只股票华兴源创迎来网上网下申购日，下周二（7月2日）睿创微纳和天准科技两只科创板新股也将进行网上网下申购。眼看打新盛宴即将开场，你确定自己完全准备好了吗？想要成功中签科创板新股，并且让自己的打新收益最大化，以下6个问题投资者们得赶快自查一下是否真的弄明白了！1.科创板交易权限开通了没有？这是一个类似电脑不能开机请先检查电源是否插好的问题：很基础，但总...

2019-06-25 10:05:56 1797

转载科创板“打新”未必一定赚钱

如果科创板新股坚持市场化发行原则，打新出现暴利的机会将较小，甚至会出现亏损可能。科创板即将推出，部分合资格投资者摩拳擦掌准备开户，资金不够门槛的投资者则拟通过申购科创板基金变相参与。据报道，部分电商及第三方销售机构正在与基金公司沟通了解科创板打新产品，打新利器“打新宝”等产品正在酝酿。但笔者认为，科创板打新，未必与目前A股打新一样稳获暴利。目前的A股打新，只要中签基本可以稳赚不赔，其中一个...

2019-06-25 09:57:21 718

转载 GMM算法

https://www.jianshu.com/p/f3dbec8a5c43

2019-06-25 09:47:58 601

转载 GMM和K-means直观对比

GMM和K-means直观对比最后我们比较GMM和K-means两个算法的步骤。GMM：先计算所有数据对每个分模型的响应度根据响应度计算每个分模型的参数迭代K-means：先计算所有数据对于K个点的距离，取距离最近的点作为自己所属于的类根据上一步的类别划分更新点的位置（点的位置就可以看做是模型参数）迭代可以看出GMM和K-means还是有很大的相同点的。...

2019-06-25 01:34:06 3624

转载随机森林

https://baike.baidu.com/item/%E9%9A%8F%E6%9C%BA%E6%A3%AE%E6%9E%97/1974765?fr=aladdin

2019-06-25 01:03:53 294

转载机器学习——几种分类算法的汇总

https://www.cnblogs.com/Zhi-Z/p/8912396.html

2019-06-25 01:03:45 17110

转载存储分类器

https://www.jianshu.com/p/3b3dc674145b

2019-06-25 01:03:36 102

转载 python之列表切片(slice)

https://www.cnblogs.com/lulipro/p/5052619.html使用索引获取列表的元素（随机读取）列表元素支持用索引访问，正向索引从0开始 colors=["red","blue","green"] colors[0]=="red" colors[1]=="blue"...

2019-06-24 18:56:18 647

转载 entropy信息熵

https://blog.csdn.net/zhaojc1995/article/details/80517739

2019-06-20 11:58:51 254

转载不纯度值节点取值

https://www.cnblogs.com/hsydj/p/5853954.html

2019-06-20 11:58:43 726

转载使用PCA对特征数据进行降维

使用PCA对特征数据进行降维2017年3月9日BY蓝鲸1 COMMENTPCA（Principal Component Analysis）是机器学习中对数据进行降维的一种方法。主要目的是在不丢失原有数据信息的情况下降低机器学习算法的复杂度，及资源消耗。本篇文章将使用python对特征进行降维。PCA通过线性变换将原始数据中可能相关的数据转换为一组线性不相关的数据。以本篇文章中...

2019-06-19 20:38:08 1536

转载机器学习评价指标 ROC与AUC 的理解和python实现

https://blog.csdn.net/qq_20011607/article/details/81712811

2019-06-19 16:45:53 327

转载随机森林 n_estimators参数 max_features参数

随机森林随机森林本质上是许多以不同方式过拟合的决策树的集合，我们可以对这些互不相同的树的结果取平均值来降低过拟合，这样既能减少过拟合又能保持树的预测能力。随机森林可用于回归或分类，通过sklearn.ensemble的RandomForestRegressor模块（回归）或RandomForestClassifier模块（分类）调用。构造随机森林的步骤：①确定用于构造的树的个数②对...

2019-06-19 14:55:45 69906 5

转载使用sklearn的cross_val_score进行交叉验证

2019-06-19 14:54:49 2069 1

转载分类器的准确度评估方法

1 影响一个分类器错误率的因素　　(1)、训练集的记录数量。生成器要利用训练集进行学习，因而训练集越大，分类器也就越可靠。然而，训练集越大，生成器构造分类器的时间也就越长。错误率改善情况随训练集规模的增大而降低。　　(2)、属性的数目。更多的属性数目对于生成器而言意味着要计算更多的组合，使得生成器难度增大，需要的时间也更长。有时随机的关系会将生成器引入歧途，结果可能构造出不够准确的分类器（这在...

2019-06-19 13:48:04 2830

转载模型参数选择方法——GridSearch网格搜索

在日常模型训练过程中，模型有多种选择，模型的参数同样也有多种选择，如何根据同一批数据选出最适合的模型和参数呢？一般情况下，模型还比较好选择，是选用机器学习中分类模型例如 LR、SVM或XGBoost等，还是使用深度学习模型CNN、LSTM等。但是参数的选择就让人很头疼，每个模型都有一堆参数，参数值又有许多，如何不费人力而费机器的选择模型参数呢，我今天看到了一种方法叫做：GridSearch，叫...

2019-06-19 13:18:07 960

转载随机森林分类器（Random Forest）

随机森林分类器（Random Forest）阅读目录1 什么是随机森林？ 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 袋外错误率（oob error） 6 随机森林工作原理解释的一个简单例子 7 随机森林的Python实现 8 参考内容回到顶部1 什么是随机森林？　　作为新兴起的、高度灵活的一种机器学习算法，随机森林（Random F...

2019-06-19 12:59:06 22558 3

转载机器学习数据预处理——标准化/归一化方法

通常，在Data Science中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。首先，我要引用我自己的文章Feature Preprocessing on Kaggle里面关于Scaling的描述Tree-based models doesn’t depend on sca...

2019-06-18 23:06:38 1222

转载 pandas中利用get_dummies()进行独热编码（One-Hot encoding）

在机器学习分类任务中，经常存在一个特征有多个分类变量值，例如在kaggle中的Titanic比赛数据中，Embarked的值有S,C,Q。我们这个时候要对离散型数据进行onehot编码处理，至于onehot编码的优点以及为什么要用onehot编码？可以参考这篇博文：数据预处理：独热编码（One-Hot Encoding）一、onehot的优点 onehot编码的优点可以总结如...

2019-06-18 18:59:56 1111

转载机器学习-决策树

机器学习-决策树一、决策树　　决策树是一种简单高效并且具有强解释性的模型，广泛应用于数据分析领域。其本质是一颗由多个判断节点组成的树，在使用模型进行预测时，根据输入参数依次在各个判断节点进行判断游走，最后到叶子节点即为预测结果。　　在数据挖掘中，决策树主要有两种类型:　　分类树的输出是样本的类标。　　回归树的输出是一个实数 (例如房子的价格，病人呆在医院的时间等)。　　术语...

2019-06-18 18:20:30 329

转载 Confusion Matrix

Confusion Matrix在机器学习领域，混淆矩阵（confusion matrix），又称为可能性表格或是错误矩阵。它是一种特定的矩阵用来呈现算法性能的可视化效果，通常是监督学习（非监督学习，通常用匹配矩阵：matching matrix）。其每一列代表预测值，每一行代表的是实际的类别。这个名字来源于它可以非常容易的表明多个类别是否有混淆（也就是一个class被预测成另一个class）...

2019-06-18 12:06:04 281

转载机器学习：查准率(Precision)和查全率(Recall)

类偏斜（skewed classes）情况表现为我们的训练集中有非常多的同一种类的实例，只有很少或没有其他类的实例。例如我们希望用算法来预测癌症是否是恶性的，在我们的训练集中，只有 0.5%的实例是恶性肿瘤。假设我们编写一个非学习而来的算法，在所有情况下都预测肿瘤是良性的，那么误差只有 0.5%。然而我们通过训练而得到的神经网络算法却有 1%的误差。这时，误差的大小是不能视为评判算法效果的依...

2019-06-18 11:24:38 681

转载解决mysqld_safe Directory '/var/run/mysqld' for UNIX socket file don't exists

事情是这样的，原先创建MySQL中的root用户，指定的host为localhost，就想改一下为某个网段的，结果改完之后就退出了，然后就悲剧了，无法连接了。网上找的大部分解决办法是：ubuntu下操作#先停止MySQL服务service msyql stop#跳过安全检查/usr/bin/mysqld_safe --skip-grant-tables &#重开一个sh...

2019-06-12 16:42:04 3058

转载 ubuntu安装mysql 时未提示输入密码

我在Ubuntu16.04版本中使用终端安装MySQL5.7时，按照度娘的教程，搜索如何安装，大多是如下代码：sudo apt-get install mysql-serversudo apt-get install mysql-client12检查MySQL是否运行：　sudo netstat -tap | grep mysql1如果成功安装，我的会显示如下内容：tc...

2019-06-12 15:45:43 403

转载人脸识别总结(附开源项目代码与各大数据集下载路径)

人脸识别总结概要人脸识别在深度学习领域里算是一项较为成功的应用，在日常生活中，经常可以见到人脸识别的设备，如人脸考勤机，各大交通站点的闸机，移动支付等。本人在从事人脸识别算法开发的短短一年时间里，也关注了不少论文和大佬们，对相关的技术发展也有了一些皮毛上的了解，在这里记录一下。本文的主要结构如下：网络模型 LOSS 数据集网络模型深度学习发展至今，主流的 CNN 网络有 VG...

2019-06-06 15:59:40 2051

转载 facenet: ValueError: Input 0 of node cross_entropy_per_example/Shape was passed int32 from batch_joi

问题：ValueError: Input 0 of node cross_entropy_per_example/Shape was passed int32 from batch_join:1 incompatible with expected int64.解决：FIFOQueue to tf.int64 from tf.int32. And also change the ...

2019-06-05 12:27:03 484 2

空空如也

空空如也