![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
machine learning
文章平均质量分 88
工药叉
这个作者很懒,什么都没留下…
展开
-
初学者教程:第一只爬虫——爬取招聘信息(一)
接触了一段时间的python,但仅仅使用了一些基本的函数。但是,Python在数据挖掘方面功能十分强大。总是用牛刀来杀鸡也不合适,终究是要杀几只牛来练练手的微笑。 于是我做了一个使用爬虫爬取招聘网站上的招聘信息的项目,并把整个过程写成一个教程,也是希望初学python和爬虫的同志们可以通过一个小项目来练手。大部分爬虫的入门教程第一课都是爬取贴吧上面的图片。本教程难度和它的难度差不多,但是会更加有意思。原创 2016-03-26 13:39:49 · 11918 阅读 · 3 评论 -
初学者教程:第一只爬虫——爬取招聘信息(二)
基础实现。介绍爬虫的代码具体实现,如何将爬到的数据解析、保存下来模型,用于区分某一条新的招聘信息是否适合自己原创 2016-04-03 16:28:37 · 3441 阅读 · 6 评论 -
初学者教程:第一只爬虫——爬取招聘信息(三)
在前面两篇教程中,我们学习了如何从网上爬取信息。下面我们会迎来最激动人心的时刻:训练一个model,让它自动分类数据。由于是面向初学者的教程,这里暂时不对算法进行更详细的介绍。感兴趣的话可以阅读[逻辑回归]。我们使用的函数库是Dato家的Graphlab Creat(https://dato.com/products/create/),非商业的个人和学生可以申请免费使用。当然,也可以使用其它的库。这样,我们就不关心算法具体的实现,把它当成一个黑盒子,仅仅关心数据的处理。原创 2016-04-03 18:06:21 · 5087 阅读 · 18 评论 -
XGBoost参数调优完全指南(附Python代码)
XGBoost参数调优完全指南(附Python代码) 原文地址:Complete Guide to Parameter Tuning in XGBoost (with codes in Python) 译注:文内提供的代码和运行结果有一定差异,可以从这里下载完整代码对照参考。另外,我自己跟着教程做的时候,发现我的库无法解析字符串类型的特征,所以只用其中一部分特征做的,具体数值跟文章中不一样翻译 2016-07-19 09:32:05 · 73280 阅读 · 22 评论 -
tensorflow实现基于深度学习的图像补全
原文地址:Image Completion with Deep Learning in TensorFlow by Brandon Amos 原文翻译与校对:@MOLLY && 寒小阳 (hanxiaoyang.ml@gmail.com) 时间:2017年4月。 出处: http://blog.csdn.net/han_xiaoyang/article/details/70214565翻译 2017-05-12 10:20:22 · 6831 阅读 · 2 评论 -
数据分析告诉你:房租大涨的锅自如背不背?
今年8月初,房租同比大幅上涨。一些文章直指以自如为首的品牌公寓巨头哄抬房租,通过抢房、囤房等操作,使房租高企。很快,自如CEO熊林发表声明称,品牌公寓市场占比极小,对房租的影响微乎其微。那么,品牌公寓对房租的影响到底如何呢? 我们爬取了自如网、蛋壳网和房天下三个网站近万条数据并进行分析。自如和蛋壳是两家品牌公寓,房天下为个人发布租房信息的平台。首先,我们爬取了回龙观、天通苑、北苑、沙河4个社区集...原创 2018-08-28 09:19:04 · 1100 阅读 · 0 评论 -
linux系统安装gdcm的python库
Digital Imaging and Communications in Medicine (DICOM) 文件是医学上常用的一种数据存储格式,gdcm库可以方便地对数据进行读取。1、Ubuntu系统https://launchpad.net/ubuntu/+source/gdcm可以直接安装sudo apt-get install python-gdcm这种安装方法会直接给系统的p...原创 2019-09-21 11:40:05 · 16645 阅读 · 0 评论