2016年11月_mmc2015

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创比较好的爬虫源码

第一个：https://zhuanlan.zhihu.com/p/23928595https://github.com/qiyeboy/IPProxyPool

2016-11-28 20:53:31 5644

转载特征选择，经典三刀

感觉文章写的很好，故转过来，如有不当，请通知后马上删除。http://mp.weixin.qq.com/s?__biz=MzIzMDA1MTM3Mg==&mid=2653077415&idx=1&sn=5a036534000cb7566e78e0e315242fe2&chksm=f36f44e4c418cdf2c62936fb9213dbdb27241dd28f44521549a704379a

2016-11-28 20:48:44 31847

原创【Kaggle——Liberty Mutual Group: Property Inspection Prediction】：如何刷入TOP-10

题目地址为https://www.kaggle.com/c/liberty-mutual-group-property-inspection-prediction这里先占个坑，描述大概思路，然后详细介绍怎么做这个比赛。并且承诺最后放出源码。首先是任务：In this challenge, your task is to predict a transformed

2016-11-27 21:13:19 1244

原创时序预测（网络流量预测）方法调研总结

是和某公司合作的项目，调研报告，为了不影响合同，仅仅给出目录，方便有需要的人按图索骥。主要分为线性时间序列预测模型、非线性时间序列预测模型、神经网络时间序列预测模型、Boosting预测模型、GM预测模型等。线性时间序列模型 2(一)自回归模型（AR（p）） 2(二)滑动平均模型（MA（q）） 2(三)ARMA（p，q）模

2016-11-27 20:44:48 14206 3

原创 Selenium总结：模拟浏览器动态加载页面

相信爬取大公司的数据时，常常会遇到页面信息动态加载的问题，如果仅仅使用content = urllib2.urlopen(URL).read()，估计信息是获取不全的，这时候就需要模拟浏览器加载页面的过程，selenium提供了方便的方法，我也是菜鸟，试了很多种方式，下面提供觉得最靠谱的（已经证明对于爬取新浪微博的topic、twitter under topic完全没问题）。

2016-11-27 20:13:53 5233 2

转载 Selenium2(WebDriver)总结：启动浏览器、设置profile、加载插件

http://www.cnblogs.com/puresoul/p/4251536.html本文主要记录下在使用selenium2/webdriver时启动各种浏览器的方法、以及如何加载插件、定制浏览器信息(设置profile)等环境搭建可参考我的另一篇文章：http://www.cnblogs.com/puresoul/p/3483055.html

2016-11-08 10:56:11 3581

转载 python爬虫，selenium使用，Firefox-chrome-IE问题解决方法，selenium的基本操作

关于什么是selenium和为什么使用selenium，自己搜资料。下面是比较好的系统介绍：https://selenium-python.readthedocs.io/installation.htmlhttps://seleniumhq.github.io/selenium/docs/api/py/api.html#selenium

2016-11-07 10:48:35 2927

转载神作：深入浅出傅里叶变换

确实写的不错，保存一下。自己再简单总结一下：第一，辨别时域与频域。第二，知道傅里叶分析是连接时域和频域的方法之一；福利也分析分为傅里叶级数和傅里叶变换。第三，傅里叶级数，就是我们常说的，把（时域上）连续周期函数，分解成（无穷）多个（时域上）连续周期函数。第四，傅里叶变换，就是我们常说的，把下面是相关页面，保存这么多，怕某个

2016-11-03 18:09:39 1524

挖掘DBLP作者合作关系，FP-Growth算法实践

挖掘DBLP作者合作关系，FP-Growth算法实践包括三个代码，一堆结果文件

2017-04-07

Chrome_IE_driver_X64_X32.rar

Chrome_IE_driver 64位32位都有，很好用，已测试。

2016-11-07

dblp测试数据集，包括十六个会议的【部分内容】，使用SDM, ICDM, ECML-PKDD, PAKDD, WSDM, DMKD, TKDE, KDD Explorations, ACM Trans. On KDD, CVPR, ICML, NIPS, COLT、 CVPR、SIGIR、SIGKDD 十六个会议，至少从2000年至今的所有数据。应用代码参考：http://blog.csdn.net/mmc2015/article/details/50988375 确实花了我很多时间搜集

2016-03-26