python
xnudhi
这个作者很懒,什么都没留下…
展开
-
抓取数据
在构建网络爬虫时,我们需要跟踪网络链接的方式下载我们所需要的网页。然后从每个网页中提取我们需要的一些数据,然后实现某些事情,这种做法叫抓取。 首先,我们需要分析网页结构,推荐使用firebug。常用的抽取网页内容的方法主要有三种,分别是正则表达式、Beautiful Soup和lxml。本文尝试分析这三种方法的使用及优劣。原创 2020-01-20 23:10:08 · 927 阅读 · 0 评论 -
代理的原理及类型总结
最近迷上了python爬虫,想来这还是我最初接触python的目的之一。在开始爬虫前,有必要要先了解一下代理,因为没有代理的爬虫,就感觉是一只死虫子。现在各大中小型网站基本都有反爬虫措施,而代理是绕过这些限制最有效的方法之一。原创 2020-01-18 20:56:49 · 1553 阅读 · 0 评论