Python
Daemon1993
这个作者很懒,什么都没留下…
展开
-
Python 爬虫 正则抽取网页数据和Scrapy简单使用
Python新手 前些天看了一些基本语法发现继续看下去效果甚微(枯(ji)燥(mo)了) 知乎上面的大神 都说爬虫 那我就从爬虫开始实践学习吧 先从简单的静态的一个页面开始干什么都得按照套路来 一哥们经常这样说 干啥事都有套路 跟着我左手右手一个慢动作如果不使用框架Scrapy 我们拿到这个网页的源文件之后 就得自己用正则表达式来抽取想要的数据这里拿糗百做实验 为什么是糗百 因为我看的原创 2016-01-21 16:55:06 · 5380 阅读 · 0 评论 -
Python 爬虫 PhantomJs 获取JS动态数据
上篇文章我非常high的爬取了一个正常网页的数据 对是正常 这次研究的就是那些“不正常”的网页 当时是我太天真 后面发现水又深 介于现在JS H5的大趋势 大部分网站都是混入了JS数据加载 数据是延迟加载的 这样如果我们用原始的urllib.open(url) 加载出来的都是还没有加载js数据之前的 所以爆炸了 所以按照上篇文章那么正常的提取数据显然不可取了 那毕竟那是静态的原创 2016-01-26 13:35:25 · 3820 阅读 · 1 评论 -
Python requests+gevent+BeautifulSoup lxml 干点啥-加点速
图片不显示—->点这里很久没有写新的内容了,看最近的一篇 都有2/3个半年了 最近又看了一些爬虫文章 还是想深入研究下最近工作中有个需求是抓一些数据 数据量上万 讲真 以前都是玩玩 没实战 所以来这个需求的时候 我内心其实有点激动 然后 我开始装逼了 用request + BeautifulSoup(html) 用这两货实现 requests请求网络数据加载 BeautifulSou原创 2016-09-02 12:16:27 · 1811 阅读 · 0 评论