2017年11月_DataCastle

12月 11月 10月 09月 08月 06月

原创反反爬虫|应对网站反爬虫策略，更高效地爬大量数据

1.Headers限制这应该是最常见的，最基本的反爬虫手段，主要是初步判断你是否是真实的浏览器在操作。这个一般很好解决，把浏览器中的Headers信息复制上去就OK了。值得注意的是，很多网站只需要userAgent信息就可以通过，但是有的网站还需要验证一些其他的信息，比如知乎，有一些页面还需要 authorization 的信息。所以需要加哪些Headers，还需要尝试，可能还需要Referer、A

2017-11-24 11:01:24 4452

原创手把手教你入门Python爬虫

如果你仔细观察，就不难发现，懂爬虫、学习爬虫的人越来越多，一方面，互联网可以获取的数据越来越多，另一方面，像 Python这样的编程语言提供越来越多的优秀工具，让爬虫变得简单、容易上手。利用爬虫我们可以获取大量的价值数据，从而获得感性认识中不能得到的信息，比如：1.爬取数据，进行市场调研和商业分析爬取知乎优质答案，为你筛选出各话题下最优质的内容。抓取房产网站买卖信息，分析房价变化趋势、做不同区域的

2017-11-24 10:23:37 5274

原创网站|数据分析、大数据、数据挖掘或者数据分析学习相关的网站

1.公开的数据集做数据分析和数据挖掘，最基础的就是数据集了，这里分享一些科研机构、企业、政府会开放的一些数据集。这些数据集通常比较完善、质量相对较高。给大家推荐一些常用的可以获取数据集的网站：UCI：加州大学欧文分校开放的经典数据集，真的很经典，被很多机器学习实验室采用。Awesome Public Datasets ：这是github一大神整理的一个丰富的数据集资源获

2017-11-22 14:28:15 3706

原创有哪些「神奇」的数据获取方式？

大数据时代，用数据做出理性分析显然更为有力。做数据分析前，能够找到合适的的数据源是一件非常重要的事情，一般获取数据的方式有爬虫、免费数据库、付费API等等。本文给大家推荐一些能够用得上的数据获取方式，后续也会不断补充、更新。一、公开数据库1.常用数据公开网站UCI：经典的机器学习、数据挖掘数据集，包含分类、聚类、回归等问题下的多个数据集。很经典也比较古老，但依然活跃在科研学者的视线中。

2017-11-22 13:59:18 16222

原创爬虫小工具合集 | 不会编程也能爬数据

当前的主流爬虫手段是用Python编程，Python的强大毋庸置疑，但初学者学习Python还是需要一两个月时间的。有没有一些更简单的爬取数据方法呢？答案是有的，DataCastle为你准备了如下小工具，对于每个小工具你只需要花十几分钟时间，跟着我的步骤走一遍就可以掌握它啦~一、Microsoft Excel 首先教大家一个用Excel爬取数据的方法，这里用的Microsoft Excel

2017-11-22 10:21:01 1423

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 反反爬虫|应对网站反爬虫策略，更高效地爬大量数据

原创 手把手教你入门Python爬虫

原创 网站|数据分析、大数据、数据挖掘或者数据分析学习相关的网站

原创 有哪些「神奇」的数据获取方式？

原创 爬虫小工具合集 | 不会编程也能爬数据

空空如也

空空如也

原创反反爬虫|应对网站反爬虫策略，更高效地爬大量数据

原创手把手教你入门Python爬虫

原创网站|数据分析、大数据、数据挖掘或者数据分析学习相关的网站

原创有哪些「神奇」的数据获取方式？

原创爬虫小工具合集 | 不会编程也能爬数据