自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 收藏
  • 关注

转载 使用Neo4j分析《权力的游戏》

几个月前,数学家 Andrew Beveridge和Jie Shan在数学杂志上发表《权力的网络》,主要分析畅销小说《冰与火之歌》第三部《冰雨的风暴》中人物关系,其已经拍成电视剧《权力的游戏》系列。他们在论文中介绍了如何通过文本分析和实体提取构建人物关系的网络。紧接着,使用社交网络分析算法对人物关系网络分析找出最重要的角色;应用社区发现算法来找到人物聚类。#! pip install ...

2019-06-13 11:27:00 675

转载 PyTorch Tutorials 4 训练一个分类器

%matplotlib inline训练一个分类器上一讲中已经看到如何去定义一个神经网络,计算损失值和更新网络的权重。你现在可能在想下一步。关于数据?一般情况下处理图像、文本、音频和视频数据时,可以使用标准的Python包来加载数据到一个numpy数组中。然后把这个数组转换成 torch.*Tensor。图像可以使用 Pillow, OpenCV音频可以使用 scipy...

2019-06-02 17:51:00 301

转载 PyTorch Tutorials 5 数据并行(选读)

%matplotlib inline数据并行(选读)Authors: Sung Kim and Jenny Kang在这个教程里,我们将学习如何使用 DataParallel 来使用多GPU。PyTorch非常容易就可以使用多GPU,用如下方式把一个模型放到GPU上: device = torch.device("cuda:0") model.to(device...

2019-06-02 17:51:00 248

转载 PyTorch Tutorials 3 Neural Networks

%matplotlib inlineNeural Networks使用torch.nn包来构建神经网络。上一讲已经讲过了autograd,nn包依赖autograd包来定义模型并求导。一个nn.Module包含各个层和一个forward(input)方法,该方法返回output。例如:它是一个简单的前馈神经网络,它接受一个输入,然后一层接着一层地传递,最后输出计算的结果。...

2019-06-02 17:10:00 191

转载 LightGBM与评分卡

调参策略最大化 off_ks + 0.8(off_ks-train_ks)import pandas as pdfrom sklearn.metrics import roc_auc_score,roc_curve,aucfrom sklearn.model_selection import train_test_splitfrom sklearn import metrics...

2019-06-02 15:36:00 1124

转载 LightGBM建模

LightGBM1.读取csv数据并指定参数建模# coding: utf-8import jsonimport lightgbm as lgbimport pandas as pdfrom sklearn.metrics import mean_squared_error# 加载数据print('Load data...')df_train = pd.read_cs...

2019-06-02 14:57:00 828

转载 Xgboost建模

xgboost参数选择较高的学习速率(learning rate)。一般情况下,学习速率的值为0.1。但是,对于不同的问题,理想的学习速率有时候会在0.05到0.3之间波动。选择对应于此学习速率的理想决策树数量。XGBoost有一个很有用的函数“cv”,这个函数可以在每一次迭代中使用交叉验证,并返回理想的决策树数量。对于给定的学习速率和决策树数量,进行决策树特定参数调优(max_d...

2019-06-02 14:39:00 3159

转载 逻辑回归与评分卡

评分卡建立逻辑回归模型对模型进行评分映射逻辑回归表达式\[ y = \frac{1}{1 + e^{-\theta}}\]\[ \theta = WX + B\]sigmoid函数\[sigmoid(x) = \frac{1}{1 + e^{-x}}\]sigmoid函数的导数\[\delta sigmoid(x) = \delta{\fra...

2019-06-02 13:33:00 976

转载 PyTorch Tutorials 2 AUTOGRAD: AUTOMATIC DIFFERENTIATION

%matplotlib inlineAutograd: 自动求导机制PyTorch 中所有神经网络的核心是 autograd 包。我们先简单介绍一下这个包,然后训练第一个简单的神经网络。autograd包为张量上的所有操作提供了自动求导。它是一个在运行时定义的框架,这意味着反向传播是根据你的代码来确定如何运行,并且每次迭代可以是不同的。示例张量(Tensor)torch....

2019-06-01 10:44:00 117

转载 PyTorch Tutorials 1 PyTorch是什么?

%matplotlib inlinePyTorch是什么?基于Python的科学计算包,服务于以下两种场景:作为NumPy的替代品,可以使用GPU的强大计算能力提供最大的灵活性和高速的深度学习研究平台开始Tensors(张量)^^^^^^^Tensors与Numpy中的 ndarrays类似,但是在PyTorch中Tensors 可以使用GPU进行计算.from ...

2019-06-01 10:23:00 121

转载 特征工程(下)

特征选择 (feature_selection)Filter移除低方差的特征 (Removing features with low variance)单变量特征选择 (Univariate feature selection)Wrapper递归特征消除 (Recursive Feature Elimination)Embedded使用SelectFromMode...

2019-05-27 12:02:00 419

转载 特征工程(上)

特征选择 (feature_selection)Filter移除低方差的特征 (Removing features with low variance)单变量特征选择 (Univariate feature selection)Wrapper递归特征消除 (Recursive Feature Elimination)Embedded使用SelectFromMode...

2019-05-27 12:02:00 270

转载 Elasticsearch 基础入门

索引雇员文档第一个业务需求就是存储雇员数据。 这将会以 雇员文档 的形式存储:一个文档代表一个雇员。存储数据到 Elasticsearch 的行为叫做 索引 ,但在索引一个文档之前,需要确定将文档存储在哪里。一个 Elasticsearch 集群可以 包含多个 索引 ,相应的每个索引可以包含多个 类型 。 这些不同的类型存储着多个 文档 ,每个文档又有 多个 属性 。Index V...

2019-05-23 13:28:00 111

转载 生肖属相单变量分析

import pandas as pdimport numpy as npf = open(r'ft_zodiac.txt', encoding='utf-8')ft_zodiac = pd.read_csv(f) print(ft_zodiac.shape)ft_zodiac.head()(23519, 4) .dataframe tbody tr th:on...

2019-05-21 20:38:00 329

转载 决策树规则挖掘

import pandas as pdimport numpy as npimport osdata = pd.read_excel('oil_data_for_tree.xlsx')data.head() .dataframe tbody tr th:only-of-type { vertical-align: middle; } ...

2019-05-21 20:24:00 437

转载 LightGBM两种使用方式

原生形式使用lightgbm(import lightgbm as lgb)import lightgbm as lgbfrom sklearn.metrics import mean_squared_errorfrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_...

2019-05-20 15:17:00 3102

转载 Xgboost 两种使用方式

原生形式使用Xgboost(import xgboost as xgb)from sklearn import datasetsfrom sklearn.model_selection import train_test_splitimport xgboost as xgbimport numpy as npfrom sklearn.metrics import precisi...

2019-05-20 14:55:00 201

转载 gensim word2vec实践

语料下载地址# -*- coding: utf-8 -*-import jiebaimport jieba.analyse# suggest_freq调节单个词语的词频,使其能(或不能)被分出来jieba.suggest_freq('沙瑞金', True)jieba.suggest_freq('田国富', True)jieba.suggest_freq('高育良', T...

2019-05-14 17:15:00 379

转载 Airbnb新用户的民宿预定结果预测

1. 背景关于这个数据集,在这个挑战中,您将获得一个用户列表以及他们的人口统计数据、web会话记录和一些汇总统计信息。您被要求预测新用户的第一个预订目的地将是哪个国家。这个数据集中的所有用户都来自美国。目的地国家有12种可能的结果:“US”、“FR”、“CA”、“GB”、“ES”、“IT”、“PT”、“NL”、“DE”、“AU”、“NDF”(没有找到目的地)和“other”。请注意,...

2019-05-01 15:25:00 1838

转载 Xgboost GPU 加速

import xgboost as xgbimport numpy as npfrom sklearn.datasets import fetch_covtypefrom sklearn.model_selection import train_test_splitimport time# Fetch dataset using sklearncov = fetch_covt...

2019-04-26 14:11:00 676

转载 使用卷积神经网络CNN完成验证码识别

gen_sample_by_captcha.py 生成验证码图片# -*- coding: UTF-8 -*-"""使用captcha lib生成验证码(前提:pip install captcha)"""from captcha.image import ImageCaptchaimport osimport randomimport timedef gen_sp...

2019-04-16 15:51:00 567

转载 基于检索的智能问答

基于检索的智能问答。目前使用了简单词汇对比、词性权重、词向量3种相似度计算模式。输入符合格式的QA文本文件即可立刻使用。程序版本和依赖库使用python3 运行jieba 分词使用的库gensim 词向量使用的库,如果使用词向量vec模式,则需要载入依赖的文件如果使用词向量vec模式,需要下载3个文件:Word60.model,Word60.model.syn0.np...

2019-04-15 17:33:00 532

转载 Spark机器学习基础三

监督学习0.线性回归(加L1、L2正则化)from __future__ import print_functionfrom pyspark.ml.regression import LinearRegressionfrom pyspark.sql import SparkSessionspark = SparkSession\ .builder\ .appN...

2019-04-15 15:31:00 304

转载 Spark机器学习基础二

无监督学习0.K-meansfrom __future__ import print_functionfrom pyspark.ml.clustering import KMeans#from pyspark.ml.evaluation import ClusteringEvaluatorfrom pyspark.sql import SparkSessionimport p...

2019-04-15 15:14:00 255

转载 如何在Windows上的Jupyter Notebook中安装和运行PySpark

When I write PySpark code, I use Jupyter notebook to test my code before submitting a job on the cluster. In this post, I will show you how to install and run PySpark locally in Jupyter Notebook ...

2019-04-14 18:03:00 1319

转载 Spark机器学习基础一

特征工程对连续值处理0.binarizer/二值化from __future__ import print_functionfrom pyspark.sql import SparkSessionfrom pyspark.ml.feature import Binarizerspark = SparkSession\ .builder\ .ap...

2019-04-14 16:59:00 99

转载 基于卷积神经网络CNN的电影推荐系统

本项目使用文本卷积神经网络,并使用MovieLens数据集完成电影推荐的任务。推荐系统在日常的网络应用中无处不在,比如网上购物、网上买书、新闻app、社交网络、音乐网站、电影网站等等等等,有人的地方就有推荐。根据个人的喜好,相同喜好人群的习惯等信息进行个性化的内容推荐。比如打开新闻类的app,因为有了个性化的内容,每个人看到的新闻首页都是不一样的。这当然是很有用的,在信息爆炸的今天,...

2019-04-09 13:33:00 8600

转载 相似度计算方法

相似度就是比较两个事物的相似性。一般通过计算事物的特征之间的距离,如果距离小,那么相似度大;如果距离大,那么相似度小。问题定义:有两个对象X,Y,都包含N维特征,X=(x1,x2,x3,...,xn),Y=(y1,y2,y3,...,yn),计算X和Y的相似性。闵可夫斯基距离(Minkowski Distance)曼哈顿距离(Manhattan Distance)p=1时,闵可...

2019-04-03 14:16:00 714

转载 调参贝叶斯优化(BayesianOptimization)

from sklearn.datasets import make_classificationfrom sklearn.model_selection import cross_val_scorefrom sklearn.ensemble import RandomForestClassifier as RFCfrom sklearn.svm import SVCfrom b...

2019-04-01 15:53:00 1613

转载 马上AI全球挑战者大赛-违约用户风险预测

方案概述近年来,互联网金融已经是当今社会上的一个金融发展趋势。在金融领域,无论是投资理财还是借贷放款,风险控制永远是业务的核心基础。对于消费金融来说,其主要服务对象的特点是:额度小、人群大、周期短,这个特性导致其被公认为是风险最高的细分领域。以借贷为例,相比于传统的金融行业需要用户自己提供的资产资料的较单一途径,互联网金融更能将用户线下的资产情况,以及线上的网络消费行为进行资料整合,...

2019-03-28 14:45:00 1567

转载 TensorFlow和Keras完成JAFFE人脸表情识别

cut_save_face.py#!/usr/bin/python# coding:utf8import cv2import osimport numpy as npimport csvdef detect(img, cascade): """ 使用Haar特征检测分类器完成人脸检测 :param img: :param cascade...

2019-03-27 14:42:00 548

转载 Kaggle比赛NCFM图像分类任务简介

为了保护和监控海洋环境及生态平衡,大自然保护协会(The Nature Conservancy)邀请Kaggle社区的参赛者们开发能够出机器学习算法,自动分类和识别远洋捕捞船上的摄像头拍摄到的图片中鱼类的品种,例如不同种类的吞拿鱼和鲨鱼。大自然保护协会一共提供了3777张标注的图片作为训练集,这些图片被分为了8类,其中7类是不同种类的海鱼,剩余1类则是不含有鱼的图片,每张图片只属于8类中...

2019-03-26 13:57:00 573

转载 逐步构建循环神经网络 RNN

rnn.utils.pyimport numpy as npdef softmax(x): e_x = np.exp(x - np.max(x)) return e_x / e_x.sum(axis=0)def sigmoid(x): return 1 / (1 + np.exp(-x))引入所需的包import numpy as npfrom...

2019-03-25 15:25:00 160

转载 使用Flask部署机器学习模型

IntroductionA lot of Machine Learning (ML) projects, amateur and professional, start with an aplomb. The early excitement with working on the dataset, answering the obvious & not so obvious ...

2019-03-20 11:04:00 831

转载 “魔镜杯”风控算法大赛

比赛概览拍拍贷“魔镜风控系统”从平均400个数据维度评估用户当前的信用状态,给每个借款人打出当前状态的信用分,在此基础上,再结合新发标的信息,打出对于每个标的6个月内逾期率的预测,为投资人提供了关键的决策依据,促进健康高效的互联网金融。拍拍贷首次开放丰富而真实的历史数据,邀你PK“魔镜风控系统”,通过机器学习技术,你能设计出更具预测准确率和计算性能的违约预测算法吗?比赛规则参赛团队...

2019-03-19 11:21:00 1085

转载 Deep Dream 模型

本节的代码参考了TensorFlow 源码中的示例程序https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/tutorials/deepdream,并做了适当修改。4.2.1 导入Inception 模型在chapter_4_data/中或者网址https://storage.googleap...

2019-03-14 19:31:00 148

转载 Neo4j 安装插件APOC和GRAPH ALGORITHMS

在 https://github.com/neo4j-contrib/neo4j-apoc-procedures/releases 下载apoc扩展包JAR文件在 https://github.com/neo4j-contrib/neo4j-graph-algorithms/releases 下载algo扩展包JAR文件将jar包放到Neo4j安装目录下plugins文件夹中在配...

2019-03-14 17:25:00 371

转载 Kaggel比赛 : [Give Me Some Credit]

通过预测在未来两年内某人将经历财务困境的可能性,改善信用评分的状态。Description银行在市场经济中扮演着至关重要的角色。他们决定谁可以获得融资,以及什么条件,可以做出或破坏投资决策。为了让市场和社会发挥作用,个人和企业需要获得信贷。信用评分算法,对违约概率进行猜测,是银行用来决定是否应该发放贷款的方法。这一竞赛要求参与者通过预测未来两年某人将经历财务困境的可能性,来改善信用...

2019-03-13 14:28:00 317

转载 Python实现机器学习算法:决策树算法

'''数据集:Mnist训练集数量:60000测试集数量:10000------------------------------运行结果:ID3(未剪枝) 正确率:85.9% 运行时长:356s'''import timeimport numpy as npdef loadData(fileName): ''' 加载文件 :...

2019-03-13 10:19:00 225

转载 Python实现机器学习算法:朴素贝叶斯算法

'''数据集:Mnist训练集数量:60000测试集数量:10000'''import numpy as npimport timedef loadData(fileName): ''' 加载文件 :param fileName:要加载的文件路径 :return: 数据集和标签集 ''' # 存放数据及标记 da...

2019-03-12 14:41:00 300

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除