- 博客(8)
- 收藏
- 关注
原创 通过 @EnableScheduling 实现定时任务的布置
通过 @EnableScheduling 实现定时任务的布置原文发布在我的博客:https://jimsunjing.github.io/tech/java/enablescheduling/在阅读一个Github项目 VBlog 的源码过程中发现了这个注解,可以提供快速的基于多种规则的任务调度。项目的数据统计需求在 VBlog 项目中,作者实现了一个数据统计的功能,实现了文章阅读访问量每...
2020-03-02 15:17:05 574
原创 python爬取airbnb房屋信息
1. 必要的库import requestsimport reimport jsonimport urllibimport pymysql # 为了连接mysqlfrom time import sleep2. 前期准备2.1 通过浏览器抓包
2019-12-09 15:35:12 1838 1
原创 根据哈希值分割train/validation set
train set 和 val set 的分隔可以用numpy实现:import numpy as npnp.random.seed(42)# For illustration only. Sklearn has train_test_split()def split_train_test(data, test_ratio): shuffled_indices = np.rando...
2019-11-23 21:11:24 371
原创 “ End To End Memory Network ” Keras 实现
“ End To End Memory Network ” Keras 实现在上一篇blog中用kaggle实现的Memory Network 是简化后的,原论文 Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, Rob Fergus, “End-To-End Memory Networks” 中的Memory Network 没有使用LSTM等...
2019-11-22 11:33:50 362
转载 减少pandas数据集所占内存
减少pandas数据集所占内存在kaggle竞赛中,经常会遇到几百甚至上千M的数据,如果用pandas的read_csv直接读取,数据类型一般会被默认为float64或float32,最终导致内存占用太多,计算处理速度变慢或程序被迫停止。可以使用以下函数对其内存进行缩减,删去不必要的数据。from pandas.api.types import is_datetime64_any_dtype...
2019-11-22 09:00:49 463
原创 bAbI Question Answering keras实践(1) pure RNN & Memory Network
bAbI Question Answering keras实践(1) pure RNN & Memory Network参考: keras babi_rnn.py, keras babi_memnn.py, bAbI - Facebook.bAbI tasks 是为了测试机器学习算法对自然语言文本的理解和逻辑能力(text understanding and reasoning) 的一...
2019-11-18 22:14:43 366
原创 使用scipy.stats.boxcox完成BoxCox变换
Why为何要使用box-cox变换?原因如下:在做线性回归的过程中,一般线性模型假定有:Y=Xβ+ϵ,ϵ∼N(0,δ2I)Y=X\beta+\epsilon,\epsilon \sim N(0,\delta^2I)Y=Xβ+ϵ,ϵ∼N(0,δ2I)线性性:E(Y)是X中各变量的线性函数独立性:ϵ1,ϵ2...ϵn\epsilon_1,\epsilon_2...\epsilon_nϵ1...
2019-09-09 17:39:48 10032 2
原创 使用《Programming Collective Intelligence》中的决策树建模训练kaggle——Titanic预测模型
使用Collective Intelligence 中的决策树建模训练kaggle titanic预测模型
2019-06-06 18:55:14 281
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人