弎见-CSDN博客

原创 Win7环境下基于Anaconda安装tensorflow(CPU)的版本问题

1. 在Anaconda下安装, 千万不要另外去安装CUDA和cudnn2. Numpy版本一定要与tensorflow版本匹配3. 安装完tensorflow后不能直接使用Jupyter notebook, 需要用Anaconda再安装一个tensorflow版本的Jupyter notebook才能正常运行

2020-07-14 19:42:34 397

原创数据挖掘之用户画像

目录:一. 构造词向量特征1.1 原始数据编码转换1.2 生成对应的数据表1.3 分词与词性过滤二. 构造输入特征2.1 使用Gensim库建立word2vec词向量模型2.2 加载训练好的word2vec模型，求用户搜索结果的平均向量2.3 测试集三. 建立预测模型3.1 基础预测模型(逻辑回归)3.2 随机森林3.3 堆叠模型四. 模型测试一. 构造词向量特征1.1 原始数据编码转换import pandas as pdimport csv# 训练数据data_path = r'data\

2020-07-05 21:37:26 2170 1

原创数据挖掘之房价预测任务

（一）：分析数据指标不同指标对结果的影响连续值与离散值的情况（二）：观察数据正太性是否满足正太分布数据变换操作（三）：数据预处理缺失值填充标签转换（四）：集成方法建模对比单模型回归效果平均与堆叠效果对比

2020-07-03 22:46:35 2439 3

原创数据挖掘之京东购买意向预测

使用京东多个品类下商品的历史销售数据，构建算法模型，预测用户在未来5天内，对某个目标品类下商品的购买意向。一. 数据检查; 二. 构建特征表单; 三. 数据清洗; 四. 数据探索; 五. 特征工程; 六. 构造训练集/测试集; 七. Xgboost建模

2020-06-25 11:26:25 1822 2

原创电费敏感数据挖掘三: 构建低敏用户模型

电费敏感数据挖掘一: 数据处理与特征工程电费敏感数据挖掘二: 文本特征构造目录:六. 构建XGBoost模型6.1 读取特征6.2 基于选择的词来创建tf-idf，构建模型输入数据6.3 XGBoost七. 保存最终预测六. 构建XGBoost模型6.1 读取特征import pandas as pdimport numpy as npimport picklefrom scipy...

2020-05-07 00:55:48 835 2

原创电费敏感数据挖掘二: 文本特征构造

电费敏感数据挖掘一: 数据处理与特征工程目录:四. 处理文本特征4.1 结巴分词4.2 处理手机号,户号等后面连接的号码4.3 加入文本特征五. 文本特征筛选5.1 构建数据集5.2 稀疏矩阵5.3 构造tf-idf特征5.4 基于特征选择来降维保存文本特征四. 处理文本特征4.1 结巴分词import jiebaprint('开始处理表1中的文本特征...')mywords = [...

2020-05-07 00:40:24 670

原创电费敏感数据挖掘一: 数据处理与特征工程

电费敏感用户数据挖掘1: 一. 数据筛选; 二. 离散值处理; 三. 构建统计特征

2020-05-07 00:08:45 1098 3

原创 python构造数据比例新特征

特征工程构造新特征时, 可以考虑构造比例特征: 该特征为某标签时所占总数据的比例

2020-05-05 23:52:48 302

原创数据挖掘案例: 泰坦尼克号

特征理解分析: 单特征分析，逐个变量分析其对结果的影响; 多变量统计分析，综合考虑多种情况影响; 统计绘图得出结论数据清洗与预处理: 对缺失值进行填充; 特征标准化/归一化; 筛选有价值的特征; 分析特征之间的相关性建立模型:特征数据与标签准备; 数据集切分; 多种建模算法对比; 集成策略等方案改进

2020-05-03 00:51:08 4195 1

原创 XGBoost实战: 保险赔偿预测

训练一个基本的xgboost模型，然后进行参数调节通过交叉验证来观察结果的变换，使用平均绝对误差来衡量

2020-05-02 11:08:57 1580

原创 matplotlib中的pie图

饼图设置颜色设置字体颜色设置说明文字%matplotlib inlineimport matplotlib.pyplot as pltm = 51212f = 40742m_perc = m/(m+f)f_perc = f/(m+f)colors = ['navy','lightcoral']labels = ["Male","Female"]plt.figure...

2020-04-04 12:16:45 401

原创 EDA探索性数据分析-- 共享单车数据

EDA探索性数据分析(共享单车数据): 特征组合; 变量的类型; 观察变量并剔除离群点; 变量间相关系数; 标签与特征变化可视化

2020-03-29 13:06:00 411

原创 matplotlib画子图: plt.subplot 与 plt.subplots

在一张画布上画多个子图, 尝试两种方式:plt.subplots(nrows, ncols) 子图需要一个一个的指定plt.subplot(nrows, ncols, i) 子图可以使用for循环一. plt.subplots()fig, axes = plt.subplots(nrows = 3, ncols = 2, figsize = (12, 12))sns.boxplot(...

2020-03-29 10:17:33 4648

原创 EDA探索性数据分析 -- 联合国粮农组织: 水资源

EDA探索性数据分析: 切片分析; 缺失值; 单特征; 数据对数变换; 数据分析维度; 变量关系可视化展示

2020-03-28 01:09:18 944 6

原创 EDA探索性数据分析 -- 足球赛事红牌数据分析

数据读取与预处理, 数据板块切分, 缺失值, 特征可视化展示, 多特征关系, 可视化报表, 特征组合与选择

2020-03-18 12:22:22 1388 3

原创创建子表并快速测试唯一性的封装(自定义)函数

从一个大数据中创建子表并快速测试唯一性的辅助函数player_index = 'playerShort'player_cols = ['birthday', 'height', 'weight', 'position', 'photoID', 'rater1', 'rater2']def get_subgroup(dataframe, g_index, g_columns): g ...

2020-03-08 18:52:48 166

原创机器学习项目实战-能源利用率3-分析

机器学习模型解释: 特征重要性; Locally Interpretable Model-agnostic Explainer (LIME); 树模型画图展示

2020-03-06 21:55:59 789

原创机器学习项目实战-能源利用率2-建模

机器学习项目实战-能源利用率2-建模: 建立基础模型, 尝试多种算法; 模型调参; 评估与测试

2020-03-06 17:39:23 955

原创特征工程--剔除共线特征

所谓共线性，指的是自变量之间存在较强甚至完全的线性相关关系。这会导致模型预测能力下降，增加对于模型结果的解释成本。如:plot_data = data[['A', 'B']].dropna()plt.plot(plot_data['A'], plot_data['B'], 'bo')plt.xlabel('Site EUI'); plt.ylabel('Weather Norm EUI'...

2020-03-06 10:39:24 1674

原创机器学习项目实战-能源利用率1-数据预处理

机器学习基本套路: 1.数据清洗与格式转换; 2.探索性数据分析; 3.特征工程建立基础模型，尝试多种算法; 4.模型调参; 5.评估与测试; 6.解释我们的模型

2020-03-06 01:14:27 1421 2

原创特征重要性评估及筛选

sklearn中特征重要性的计算方法, 基于重要性来进行特征选择

2020-03-04 17:55:21 3222 1

原创 PairGrid两两关系图&皮尔逊相关系数

Pearson相关系数，帮助我们来筛选特征 ; 用PairGrid 可以按我们的需求去自定义下需要展示的部分

2020-02-29 11:05:41 1847

原创剔除离群点

离群点的选择需要斟酌一下，这里选择的方法是extreme outlier。First Quartile − 3 ∗ Interquartile RangeFirst Quartile + 3 ∗ Interquartile Range另一种方法是3倍标准差(std)

2020-02-29 10:50:32 9946

原创 python查看数据缺失值比例模板

对于一个DataFrame数据, 如何查看其缺失值的情况%matplotlib inlineimport missingno as msnomsno.matrix(data, figsize = (16, 5))def missing_values_table(df): mis_val = df.isnull().sum() # 总缺失值 mis_val_percent...

2020-02-28 14:48:23 4891

原创实战: 对GBDT(lightGBM)分类任务进行贝叶斯优化, 并与随机方法对比

目录:一. 数据预处理1.1 读取&清理&切割数据1.2 标签的分布二. 基础模型建立2.1 LightGBM建模2.2 默认参数的效果三. 设置参数空间3.* 参数空间采样四. 随机优化4.1 交叉验证LightGBM4.2 Objective Function4.3 执行随机调参4.4 Random Search 结果五. 贝叶斯优化5.1 Objective Function...

2020-02-28 00:35:56 5667 2

原创 Hyperopt工具包贝叶斯优化

Hyperopt工具包一. Bayesian Optimization 贝叶斯优化四大步骤Objective 目标函数Domain space 指定参数空间Hyperparameter optimizationfunction 可选择的采样算法,随机或者贝叶斯优化Trials 记录结果的保存1. Objective 自定义目标, 这里得有一个最小值import pandas as...

2020-02-22 15:11:14 1806

原创推荐系统实例之surprise库

surprise官方网址:http://surprise.readthedocs.io/en/stable/index.htmlfrom surprise import KNNBasicfrom surprise import Datasetfrom surprise.model_selection import cross_validatedata = Dataset.load_bui...

2020-02-18 21:05:07 1219

原创协同过滤与隐语义模型推荐系统实例3: 基于矩阵分解(SVD)的推荐

[ 协同过滤与隐语义模型推荐系统实例1: 数据处理 ][ 协同过滤与隐语义模型推荐系统实例2: 基于相似度的推荐 ]隐语义模型推荐基于矩阵分解（SVD）的推荐# 先计算歌曲被当前用户播放量/用户播放总量当做分值triplet_dataset_sub_song_merged_sum_df = triplet_dataset_sub_song_merged[['user', 'listen...

2020-02-16 00:55:54 754

原创协同过滤与隐语义模型推荐系统实例2: 基于相似度的推荐

[ 协同过滤与隐语义模型推荐系统实例1: 数据处理 ]基于相似度的推荐系统一. 排行榜单推荐from sklearn.model_selection import train_test_splittriplet_dataset_sub_song_merged_set = triplet_dataset_sub_song_mergedtrain_data, test_data = tra...

2020-02-16 00:02:10 573

原创协同过滤与隐语义模型推荐系统实例1: 数据处理

构建一个音乐推荐系统import pandas as pdimport numpy as npimport timeimport sqlite3data_home = 'F:/51学习/study/机器学习进阶/第14章Python从零开始构建音乐推荐系统/Python实现音乐推荐系统/'triplet_dataset = pd.read_csv(filepath_or_buffe...

2020-02-15 18:13:36 609 1

原创 python中符号" ~ "的意义和用法

~ 在python中为反转的意思, 目前我知道的有两种用法.一. 数值按位翻转~ x 就是 - ( x + 1)x = 2print(~x)-3二. 布尔值取反直接看案例import pandas as pddf = pd.DataFrame([[1,2,3,4,5,6,7,8,9,10],[1,2,3,4,5,6,7,8,9,10]], columns=['A','B','...

2020-02-05 12:08:53 16410

原创 ARIMA 时间序列5: 维基百科词条EDA

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport re%matplotlib inlinetrain = pd.read_csv('train_1.csv').fillna(0)print(train.shape)train.head()打印info信息看到数据大小 609.8...

2020-01-14 21:52:15 427 2

原创 ARIMA 时间序列4: 预测股票趋势

import pandas as pdimport numpy as npimport datetimeimport matplotlib.pyplot as pltimport seaborn as snsfrom statsmodels.tsa.arima_model import ARIMAfrom statsmodels.graphics.tsaplots import pl...

2020-01-12 21:36:45 1112

原创 ARIMA 时间序列3: 使用tsfresh库进行分类任务

文章目录1. 查看数据2. 时间序列特征提取3. 用决策树训练,预测和评估模型tsfresh是开源的提取时序数据特征的python包，能够提取出超过4000种特征 .1. 查看数据import matplotlib.pyplot as pltimport seaborn as sns%matplotlib inlinefrom tsfresh.example.robot_executi...

2020-01-12 21:11:24 1699

原创 ARIMA 时间序列2: 评估和参数选择

ARIMA -> SARIMA -> SARIMAX：S是Seasonal，就是季节性、周期性的意思X是eXogenous，外部信息的意思季节性参数：P：季节性自回归阶数。D：季节性差分阶数。Q：季节性移动平均阶数。m：单个季节期间的时间步数。import numpy as npimport pandas as pdimport matplotlib.p...

2020-01-12 11:57:29 3919

原创 ARIMA 时间序列1: 差分, ACF, PACF

ARIMAARIMA(p，d，q)模型全称为差分自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA).自回归（AR），差分（I），移动平均（MA）趋势参数：p：趋势自回归阶数。d：趋势差分阶数。q：趋势移动平均阶数。ACF 与 PACF自相关函数 ACF (autocorrelation funct...

2020-01-11 21:11:13 9844

原创时间处理date_range,truncate,Timestamp,Period,Timedelta,resample,rolling

文章目录1. date_range2. truncate 过滤3. Timestamp, Period, Timedelta3.1 Timestamp 时间戳3.2 Period 时间区间3.3 Timedelta 时间差3.4 时间转换4. period_range5. 时间索引6. 时间戳Timestamp 和时间周期period 转换7. 重采样 resample8. 插值方法 fill9....

2020-01-11 12:11:51 674

原创 HMM隐马尔科夫模型与实例3: 中文分词

import jsonimport loggingimport numpy as npimport pandas as pddata = [{'我要吃饭': 'SSBE'}, {'天气不错': 'BEBE'}, {'谢天谢地': 'BMME'}]{B（词开头），M（词中），E（词尾），S（独字词）} {0,1,2,3}O：观察对象的集合，这里是字的集合，{我要吃饭天气不错谢天地...

2019-12-27 20:21:18 549 1

原创 HMM隐马尔科夫模型与实例2: 预测股票走势

from __future__ import print_function #python2.X,使用print就得像python3.X那样加括号使用import datetimeimport numpy as npimport pandas as pdfrom matplotlib import cm, pyplot as pltimport mpl_finance as mpffr...

2019-12-27 17:12:56 6985 3

原创 HMM隐马尔科夫模型与实例1

隐马尔可夫模型 Hidden Markov Model (HMM)以下三个问题，人们提出了相应的算法1 评估问题：前向算法2 解码问题： Viterbi算法 (维特比算法)3 学习问题： Baum-Welch算法(向前向后算法)import numpy as npfrom hmmlearn import hmm# 隐藏状态：3个盒子states = ['box1', 'bo...

2019-12-26 23:06:48 647

空空如也

空空如也