自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

DataCastle

DataCastle — 专业的大数据竞赛平台 http://pkbigdata.com/

  • 博客(5)
  • 收藏
  • 关注

原创 反反爬虫|应对网站反爬虫策略,更高效地爬大量数据

1.Headers限制这应该是最常见的,最基本的反爬虫手段,主要是初步判断你是否是真实的浏览器在操作。这个一般很好解决,把浏览器中的Headers信息复制上去就OK了。值得注意的是,很多网站只需要userAgent信息就可以通过,但是有的网站还需要验证一些其他的信息,比如知乎,有一些页面还需要 authorization 的信息。所以需要加哪些Headers,还需要尝试,可能还需要Referer、A

2017-11-24 11:01:24 4452

原创 手把手教你入门Python爬虫

如果你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得简单、容易上手。利用爬虫我们可以获取大量的价值数据,从而获得感性认识中不能得到的信息,比如:1.爬取数据,进行市场调研和商业分析爬取知乎优质答案,为你筛选出各话题下最优质的内容。 抓取房产网站买卖信息,分析房价变化趋势、做不同区域的

2017-11-24 10:23:37 5274

原创 网站|数据分析、大数据、数据挖掘或者数据分析学习相关的网站

1.公开的数据集做数据分析和数据挖掘,最基础的就是数据集了,这里分享一些科研机构、企业、政府会开放的一些数据集。这些数据集通常比较完善、质量相对较高。给大家推荐一些常用的可以获取数据集的网站:UCI:加州大学欧文分校开放的经典数据集,真的很经典,被很多机器学习实验室采用。Awesome Public Datasets :这是github一大神整理的一个丰富的数据集资源获

2017-11-22 14:28:15 3706

原创 有哪些「神奇」的数据获取方式?

大数据时代,用数据做出理性分析显然更为有力。做数据分析前,能够找到合适的的数据源是一件非常重要的事情,一般获取数据的方式有爬虫、免费数据库、付费API等等。本文给大家推荐一些能够用得上的数据获取方式,后续也会不断补充、更新。一、公开数据库1.常用数据公开网站UCI:经典的机器学习、数据挖掘数据集,包含分类、聚类、回归等问题下的多个数据集。很经典也比较古老,但依然活跃在科研学者的视线中。

2017-11-22 13:59:18 16222

原创 爬虫小工具合集 | 不会编程也能爬数据

当前的主流爬虫手段是用Python编程,Python的强大毋庸置疑,但初学者学习Python还是需要一两个月时间的。有没有一些更简单的爬取数据方法呢?答案是有的,DataCastle为你准备了如下小工具,对于每个小工具你只需要花十几分钟时间,跟着我的步骤走一遍就可以掌握它啦~一、Microsoft Excel 首先教大家一个用Excel爬取数据的方法,这里用的Microsoft Excel

2017-11-22 10:21:01 1423

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除