数据采集
文章平均质量分 93
house.zhang
这个作者很懒,什么都没留下…
展开
-
【数据采集】不到十行核心代码实现房产数据抓取
背景从去年开始大湾区、豪宅税的取消、行示范区的概念,深圳房地产市场可谓是红红火火,未买房的刚需瑟瑟发抖。现在经历过疫情影响深圳房价市场到底如何了?那么写个小爬虫爬取下链家网站,大致了解下当下深圳房市的整体情况。因为网站主要是js动态渲染,因此普通的http请求获取不到动态数据,这里主要采用selenium ,selenium技术是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样,支持大多数常见的浏览器。selenium可以模拟真实浏览器,自动化测试工具原创 2020-05-19 19:52:34 · 452 阅读 · 0 评论 -
python爬虫的使用
1、简述,Python在爬虫方面有独天得厚的优势,几行代码就可以写出一个简单的爬虫,python有些比较强大的库比如urlib库、Beautiful库、scrapy框架都非常好用。一个简单的爬虫:from urllib.request import urlopenresponse = urlopen("http://www.sina.com")print(response.read())原创 2016-06-04 19:39:45 · 1185 阅读 · 0 评论 -
爬虫那些事-网页爬虫设计思路
一、前言爬虫广泛使用于搜索引擎、新闻聚合以及大数据采集当中,一个良好的爬虫系统需要考虑很多方面:爬虫种子的获取需要有个稳定的任务调度机制,下载页面过程需要考虑到网页内容的生成是否是需要js渲染,请求网页是否需要设置请求头,还有请求过多会不会被对方封锁。另外就是数据处理过程,什么页面需要进行数据提取,什么页面是分裂成其它页面,还有页面内容提取需要采用什么手段:比如css selector解析,x原创 2017-08-02 16:51:42 · 11089 阅读 · 0 评论