- 博客(6)
- 收藏
- 关注
原创 Java使用poi读取excel数据(excel可能很大,先转换为csv再读取)
————————————配置———————————— jdbc.properties中加入: excelUrl=/……xlsx文件目录路径/ (excelUrl + “xxxx.xlsx” 为完整路径) 导入poi-3.16下的6个jar包,poi-3.16/lib下的5个jar包,poi-3.16/ooxml-lib下的2个jar包
2017-07-26 10:49:13 20229 2
原创 浅析机器学习中的模型选择与调参(cross validation + grid search)
对于一个预测问题,同时有多种可用的模型,每种模型有多种可用的参数。如何选择一个最合适的模型?总题过程分为2个部分:1.对于一个模型,如何评估该模型在特定问题上的好坏?2.选择了最好的模型后,如何选择最优的参数? 对于模型的评估,我们一般使用交叉验证(cross validation)来进行评估。 在这里我们使用了k折叠法,将训练集划分为相等的k份。然后从1
2017-07-20 09:59:58 11474 2
原创 java使用poi读取excel数据(xlsx)
首先要下载poi的jar包:下载地址之后在项目中需要把poi下载目录里的所有jar包导入。然后我自己封装了一个xlsx读取类,输入文件地址,要获取的列。输出二维数组,第一维代表一行数据,第二维代表每一行的单元格数据。import java.io.File;import java.io.FileInputStream;import java.io.IOException;impor
2017-07-15 18:33:41 35870 3
原创 java下的mysql数据库插入越插越慢的问题解决(百万数据量级别)
最近的项目需要导入大量的数据,插入的过程中还需要边查询边插入。插入的数据量在100w左右。一开始觉得100w的数据量不大,于是就插啊插,吃了个饭,回来一看,在插入了50多w条数据后,每秒就只能插10条了。。觉得很奇怪,为啥越插越慢呢?于是就开始分析插入的时间损耗,想到了如下的解决方案:(mysql使用的INNODB引擎)1.分析是否是由主码,外码,索引造成的插入效率降低主码:由于主
2017-07-14 11:02:59 30541 3
原创 Mac下安装hadoop2.x后,ResourceManager无法启动问题解决
starting resourcemanager, logging to /Users/hadoop/hadoop-2.7.3/logs/yarn-hadoop-resourcemanager-MacBook-Pro-2.local.outnohup: can't detach from console: Inappropriate ioctl for deviceMac下的nohup似乎
2017-07-06 15:19:30 4477
原创 Kaggle入门模板:以手写识别Digit Recognizer为例
首先本文参考了点击打开链接 这篇博客,然后可能时间有点久远,Kaggle的这道题给的数据文档和之前的不一样了,以及还有一些注意点这篇文章里没有突出。因此这里重新做个总结,希望大家能早点入个门。这里我使用的sklearn中的支持向量机来解决手写识别问题。这里的svm是可以解决多分类问题的。核函数使用的是高斯核(rbf),松弛变量c选择的是5.kaggle这道题一共提供了3个文件:train.
2017-07-05 10:24:03 3430
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人