爬虫系列
谷震平
这个作者很懒,什么都没留下…
展开
-
爬虫之刃----总览之心里鸡汤(系列一)
问题背景在百姓网挖坑中,累啊。我的老大告诉我,那谁谁需要58/赶集的数据。我当时的第一反应是找个黑帽去脱库…擦嘞。老大面对我:“嗯哼,赶集的,你上吧!有问题找xx协助一下。”我就只能“哦”了一下…..下面填坑。这个系列的价值我是这样想的:把这个当故事看会好点。但是,文笔不行,挖坑不造…这是个六年级会点lol的小学渣的随笔。但是,这个东西是存在的,你看或不看,它都在这原创 2016-07-31 23:16:59 · 1622 阅读 · 0 评论 -
爬虫之刃----简化爬虫程序之滚轮子实战(系列三)
前言这是一些准备工作:了解整个系列的安排了解系列二中的爬虫架构If you have done, that’s cool ! 这篇主要是:介绍需要的技术栈,需要补的东西请戳官方文档。官贴是专业的!推荐个人使用的一些库和轮子OK!Let’s get a new start!技术栈合集1. Requests和lxml(主要是tree函数)。Reque原创 2016-07-31 23:20:08 · 4263 阅读 · 4 评论 -
数据之美----雪球网股票组合分析
简介因为工作需要,爬了几个大型的网站,练就一身爬取数据和分析数据的功夫。所以,在无聊的时候写了个爬取系统。主要功能是爬取雪球组合的数据,并进行分析,得出一些有价值有潜力的股票代码。实盘到没有测试,随便估计了一下,至少跟盘不会出现亏损。先普及一下组合的概念:由雪球、微博等平台的投资主理人管理的股票持仓池。技术架构特点:简单可依赖多服务器多核心异步架构实时爬取机器学习、数理统计经典方法分析6000原创 2016-10-13 00:22:24 · 7282 阅读 · 4 评论 -
爬虫之刃----赶集网招聘类爬取案例详解(系列四)
前言本篇承袭之前的系列文章,开始动真格。以赶集网招聘类信息爬取为例,详细解说爬虫程序构建过程。准备工作:阅读之前的系列一、系列二、系列三,有一定递进关系登陆赶集网,了解下“地形”OK,let’s go!构建URL库每个网站的URL都会有一定规律,或强或弱。赶集网的URL规律就非常明显。郑重说明:对于目标站点,必须熟悉。这一步对于不同的网站有不同的方法。而赶集的话,是我通过仔细观察得到url规律原创 2016-10-01 20:36:46 · 9791 阅读 · 5 评论