- 博客(5)
- 收藏
- 关注
原创 python爬虫学习roadmap
Python中常用的爬虫根据包括scrapy,requests+bs4等,链接中(点这里)最后一部分”Web scraping”有两种方法的比较。总体来讲,大家比较推荐用scrapy。网络抓取需要用到Python的Scrapy包,Chrome浏览器以及Xpath表达式。Scrapy教程可以参考1和2。可以一边阅读一边运行几个样例代码。Chrome浏览器主要用开发者工具中的Elements以及Net
2017-06-05 11:22:27 859
原创 远程服务器设置jupyter
先按照链接(点这里) 在服务器端配置。配置完成后一般就可以在自己的浏览器输入https://IP:JupyterPort,密码访问jupyter了。 如果不行,那么可以尝试使用远程端口映射的方法。 比如在本地shell运行ssh username@IP -L127.0.0.1:newPort:127.0.0.1:JupyterPort,然后在本地浏览器输入https://127.0.0.1:ne
2017-04-06 21:34:06 678
转载 MarkDown使用方法
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2017-04-06 21:22:29 339
原创 XGBoost处理缺失值(Null)问题
对于数据缺失的问题,XGBoost设计了很好的默认机制处理这个问题。以下摘自陈天奇在GitHub讨论组中的讨论。 You can directly feed data in as sparse matrix, and only contains non-missing value. i.e. features that are not presented in the sparse fea
2017-03-02 16:36:29 14610 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人