爬虫
可问春风丶
这个作者很懒,什么都没留下…
展开
-
爬虫基础和相关知识
robots协议 www.taobao.com/robots.text1.下载数据 -urllib/requests/aiohttp2.解析数据 -re/lxml/beautifulsoup4(bs4)/pyquery3.持久化 - pymysql/redis/sqlalchemy/peewee/pymongo4.调度器 - 进程/线程/协程正则表达式 - 性能好 复杂pyq...原创 2018-06-04 10:38:45 · 4565 阅读 · 0 评论 -
多进程面向对象爬虫程序
爬虫基本步骤:1.定义全局变量redis_client = redis.Redis(host='112.74.60.22', port=1994, password='xxz199439') # 链接redis数据库,存放任务队列和已完成任务mongo_client = pymongo.MongoClient(host='11...原创 2018-06-04 10:41:35 · 772 阅读 · 0 评论 -
Selenium实现交互式模拟浏览器行为
前面介绍了网络爬虫对静态页面的抓取,但是在爬取网页的时候会遇到各种各样的情况,比如下拉选项和表单提交,这些都是用之前的方法解决不了的。在Python爬虫中处理这种需要模拟用户操作的情况最好的方法之一就是使用Selenium。1.Selenium介绍Selenium是ThoughtWorks公司的一个强大的开源Web功能测试工具系列,采用Javascript来管理整个测试过程,包括读入测试套...原创 2018-06-09 13:50:36 · 4098 阅读 · 0 评论 -
爬虫如何对网页动态内容抓取
我们进入淘宝网,在首页查看源代码 可以看到全是js,并没有直观的页面元素,因为首页的内容都是动态生成的,这时候我们就需要对网页的链接做一些分析了。 现在我想爬取淘宝网上所有关于Ipad的信息,那么现在首页的搜索框输入‘Ipad’查看链接得到https://s.taobao.com/search?q=ipad&imgfile=&js=1&stats_cli...原创 2018-06-09 16:00:02 · 10659 阅读 · 0 评论 -
分布式爬虫及Bloom fileter去重
分布式爬虫介绍1.使用redis:虽然scrapy帮我们将爬虫程序处理成了多线程加异步(默认100个线程),但是我们只能在一台主机上运行,所以爬取速率还是很有限的,分布式爬虫将多台主机组合起来,共同完成一个爬虫任务,这将大大提高爬虫效率。2.维护爬虫队列我们要做的就是在多台主机上同时运行爬虫任务协同爬取,而协同爬取的前提就是共享爬虫队列,这样主机就不需要各自维护爬虫队列,而是从...原创 2018-07-09 19:33:17 · 1521 阅读 · 0 评论