spiders
虎皮猫大R
TO do something with data
展开
-
python爬虫之一 —— 爱斗图图包抓取
python爬虫之一 —— 爱斗图图包抓取前言最近有点空闲时间,又开始研究python的爬虫,事实上这几天已经写了好几个爬虫,也尝试了用pyspider爬取网页,慢慢积累,今天和大家分享一个表情包爬虫。相信大家都喜欢斗图,今天这个爬虫就是爬取爱斗图网站的图包,资源丰富,内容很多:步骤这个网站主要是静态网页,结构并不复杂,我们的操作步骤如下:发送请求,接收响应;解析第一页,获取详情...原创 2018-12-27 15:50:01 · 580 阅读 · 0 评论 -
python爬虫之五 ——拉勾网数据
详细代码import requestsimport jsonimport mathimport timefrom fake_useragent import UserAgentimport pymongo#from proxy_ip import get_one_proxy_ipclass LaGou: def __init__(self): self....原创 2019-01-06 19:24:32 · 655 阅读 · 3 评论 -
python爬虫之四 —— selenium和京东商品
前言如果说爬虫是模拟浏览器向服务器发送请求,获取数据,那么有了selenium之后,我们可以操控浏览器自动帮我们抓取数据。关于selenium在python中的使用,可以参考Selenium Documentation和Selenium with Python中文翻译文档。步骤这次以京东为例,获取京东的商品列表数据。步骤如下打开首页搜索关键字,进入第一页网页下拉获取网页源码,解析网...原创 2019-01-02 16:29:43 · 676 阅读 · 0 评论 -
python爬虫之七 —— 链家二手房
前言最近用爬虫在链家网上转了转,获取了成都所有二手房的数据(普通住宅,不含公寓、别墅等),一共5万多条,在爬数据的过程中发现了一些需要注意的问题:每一组筛选条件最多只能显示100页(每页30条,一次筛选最多3000条),需要拆分筛选项来获取一个城市的所有数据,我选择按地域拆分,其它方式也可以只有中心城区的二手房数据,稍远一点的区县基本没有或被归入临近的地区(看来链家的业务收缩在了中心区域)...原创 2019-01-18 15:30:53 · 1089 阅读 · 3 评论 -
python爬虫之六 —— selenium和BOSS直聘
主要逻辑打开首页搜索关键字,进入第一页2.1 获取详情页url2.2 进入详情页抓取数据翻页,重复第二步详细代码from selenium import webdriverfrom selenium.webdriver.common.keys import Keysfrom bs4 import BeautifulSoup as bsimport timeclass ...原创 2019-01-09 09:36:21 · 974 阅读 · 1 评论