自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 机器学习集成算法之Adaboost原理详细解读(推导填坑必看)
原力计划

本文是基于刘建平老师的关于Adaboost的博文为模板,就其中损失函数的推导部分加以细化。网上基本所有关于Adaboost推导过程中都有假设: wki’=wkiw_{ki}^{’} =w_{ki}wki’​=wki​,个人之前在看到这一步的时候总是理解不了这个假设的由来,网上也一直找不到相关的解释...

2020-06-05 23:21:15 87 0

原创 「二分类算法」提供银行精准营销解决方案(样本不平衡问题)
原力计划

项目背景 项目来源于Kesci平台:提供银行精准营销解决方案 项目简介 本练习赛的数据,选自UCI机器学习库中的「银行营销数据集(Bank Marketing Data Set)」 这些数据与葡萄牙银行机构的营销活动相关。这些营销活动以电话为基础,一般,银行的客服人员需要联系客户至少一次,以此确认...

2020-05-30 22:50:02 689 0

原创 电商用户行为分析案例--天池数据集User Behavior Data from Taobao(python环境MySQL操作+Pyecharts可视化)

项目的背景及数据预处理过程,本文不再进行介绍。 可以参考上一篇博文: 电商用户行为分析案例–天池数据集User Behavior Data from Taobao 本文基于上文已经预处理并导入MySQL的数据,在Python环境下,连接数据库进行取数。 Python环境下,MySQL数据库的操作,...

2020-05-17 01:42:06 698 2

原创 电商用户行为分析案例--天池数据集User Behavior Data from Taobao

用户行为分析过程 说明 本次数据分析基于阿里云天池数据集(用户行为数据集),使用转化漏斗,对常见电商分析指标,包括转化率,PV,UV,复购率等进行分析,分析过程中使用Python进行数据的清洗,清洗后的数据导入MySQL数据库,运用MySQL进行数据提取,使用Excel进行数据可视化。 一、数据集...

2020-05-13 23:45:18 1292 12

原创 京东商品评论分析(爬虫+分词+词云图)

项目背景: 本文通过抓取京东某笔记本的评论数据,简单从几个维度进行分析,并制作用户评论的词云图。 爬取数据: 商品链接 通过对商品评论页面进行探索,发现评论数据是通过发送请求,然后从数据库调取此商品的评论数据,返回的评论数据是Json格式。可以点击下一页,抓到发送请求的链接: https://cl...

2020-05-05 14:59:18 1027 18

原创 天池o2o优惠券使用预测-第一名思路及代码解读

赛题回顾 本赛题提供用户在2016年1月1日至2016年6月30日之间真实线上线下消费行为,预测用户在2016年7月领取优惠券后15天以内是否核销。评测指标采用AUC,先对每个优惠券单独计算核销预测的AUC值,再对所有优惠券的AUC值求平均作为最终的评价标准。 大赛地址 解决方案概述 本赛题提供了...

2020-04-23 23:12:00 355 0

原创 逻辑回归制作金融申请评分卡

本文以个人消费类贷款数据,来简单介绍金融申请评分卡的建模和制作流程。 1.1导库,获取数据 #导库 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline from skle...

2020-04-12 00:10:47 93 0

原创 用Python对numpy数组进行变形

在用numpy时候,经常需要对数组进行维度的转换、变形,本文简单聊下numpy如何重塑多维数组。 numpy.reshape()方法如何重整数组? 创建一个Python numpy数组 使用np.arange()生成一个numpy数组,其中包含从1到12的数字序列: import numpy a...

2020-01-01 00:23:58 264 0

原创 Python环境下MySQL数据库的操作

在Python环境下连接MySQL数据库,一般有两种方式: 1、在Python环境中连接MySQL数据库后,实际提取数据用的还是SQL语句。常用的有:pymysql库; 这种编程语言在不同的数据库间一般不具有通用性,如果换个数据库,又得把代码全部重新写。 2、运用ORM框架,构建关系数据库的表结构...

2019-12-29 21:39:57 106 0

原创 零售行业数据分析运用

随着移动互联网十年红利期的结束,线上流量成本越来越贵,许多企业纷纷将目光又从线上业务转移至线下,传统零售行业面临着激烈的竞争,而以往的粗犷式运营,已不能满足现阶段市场环境及商业竞争的要求,精细化运营势在必行。 在此背景下,运用计算机及互联网技术为企业进行数字化、智慧化赋能是所有企业都必须考虑的问题...

2019-12-29 16:54:14 347 0

原创 数据分析必会的六大实用模型

对于刚刚接触数据分析的人来说,经常会有这样的困惑和疑问:数据分析究竟难不难?难的话难在哪?为什么有时候作分析不知道从何下手,只能眉毛胡子一把抓? 其实就连我这种已经在数据分析行业浸淫十几年的老油条,有时候做起分析来也会手忙脚乱,根本原因就在于没有抓住数据分析的本质,我们是为了用大量数据去分析、解...

2019-12-08 13:07:55 100 0

原创 Python3爬取豆瓣图书Top250并存入csv文件中

本文抓取豆瓣图书Top250中的相关资讯,可以练习对于网页结构的分析及提取。 下面先导入相关的包,并伪装成浏览器访问: import requests from lxml import etree import re header={'User-Agent':'Mo...

2019-11-30 18:04:14 380 2

原创 Kaggle - Home Depot Product Search Relevance关键词搜索

背景介绍 Home Depot 产品相关性预测 kaggle竞赛:https://www.kaggle.com/c/home-depot-product-search-relevance HomeDepot是美国一家家具建材商品网站,用户通过在搜索框中输入关键词,得到相关商品和服务,如输入floo...

2019-11-17 10:35:17 60 0

原创 文本挖掘(Word2Vec)小案例《每日新闻预测金融市场变化》

数据简介 本案例用到的原始数据是一个简单的数据集,其中包括从国外某网站捞取的每日新闻排序(25条),然后以当日的股票市场涨跌作为Label。从而根据对新闻的挖掘,来判断当日股票涨跌。 数据集大致长这样(部分截图): Date:日期数据,本案例文本分析就不用这个数据了。 Label:当日股票市场情况...

2019-11-16 11:45:29 190 0

原创 Python编码问题及中文解决方案

一.各种编码的由来 为什么会出现多种编码? 相信计算机专业的都知道,所有的数据(文本,音频,视频等等)在计算机内部都是以二进制形式来表示的。而计算机内部为什么采用二进制则是由硬件决定的(计算机采用了具有两种稳定状态的二值电路)。这样,就引出一个问题: 我们人类不适合直接看二进制。因此,需要用一种方...

2019-11-14 19:52:04 68 0

原创 文本挖掘(TF-IDF)小案例《每日新闻预测金融市场变化》

数据简介 本案例用到的原始数据是一个简单的数据集,其中包括从国外某网站捞取的每日新闻排序(25条),然后以当日的股票市场涨跌作为Label。从而根据对新闻的挖掘,来判断当日股票涨跌。 数据集大致长这样(部分截图): Date:日期数据,本案例文本分析就不用这个数据了。 Label:当日股票市场情况...

2019-11-13 21:35:52 119 0

原创 Kaggle 便利店销量预测(xgboost附完整详细代码)

项目背景介绍 Forecast sales using store, promotion, and competitor data Rossmann operates over 3,000 drug stores in 7 European countries. Currently, Rossma...

2019-10-29 23:32:37 2906 7

原创 Kaggle_Titanic生存预测

泰坦尼克号数据介绍与分析 数据介绍 作为当前机器学习最出名的几个入门kaggle项目,背景就无需多做介绍了。数据出处如下: https://www.kaggle.com/c/titanic/data 数据中相关数据标签含义如下: 从这里,我们大致了解了关于这份数据的存在形式,于是我们...

2019-10-27 18:47:28 123 0

原创 Kaggle Event Recommendation Engine Challenge活动推荐(协同过滤推荐系统)

这里写自定义目录标题赛题介绍数据集一 处理user和event基础数据二 构建用户相似度矩阵三 用户社交关系挖掘四 event相似度矩阵五 event热度数据六 特征构建七 模型构建 赛题介绍 根据用户信息与活动(event)信息,预测用户将对哪些活动感兴趣。 数据集 共有六个文件:train.c...

2019-10-19 20:13:36 169 0

提示
确定要删除当前文章?
取消 删除