Python爬虫
FesonX
这个作者很懒,什么都没留下…
展开
-
第一个Python单线程爬虫(使用正则表达式)
第一个爬虫程序单线程爬虫,使用request模块,使用zip实现多个参数的for循环# coding=utf-8import requestsimport rehtml = requests.get('http://money.163.com/special/pinglun/')text = html.textt1 = re.findall('<div class="item_top">(.原创 2016-11-13 10:35:50 · 380 阅读 · 0 评论 -
第一个BeautifulSoup爬虫
利用BeautifulSoup抓取网易评论的文章标题,时间,链接 使用BeautifulSoup,request模块,在虚拟的Python2.7下运行# coding=utf-8import requestsfrom bs4 import BeautifulSouphtml = requests.get('http://money.163.com/special/pinglun/')tex原创 2016-11-14 21:02:20 · 348 阅读 · 0 评论 -
Python Web工程师面试总结(一)- 总体框架
面试了一家初创公司, 面试官问的问题并不是说很难, 但是覆盖面比较广, 有一些基础概念不清晰的话, 很容易被问倒.一些资料显示, 对 Python Web 开发工程师的一些技术栈要求如下:熟悉Python语言 对 HTML/ CSS/ Javascript 比较熟悉 对网络基础知识,比如HTTP、TCP/IP 等比较熟悉 熟悉数据库、缓存、消息队列等技术的使用场景和使用方法 日常...原创 2019-03-10 15:33:00 · 405 阅读 · 0 评论 -
JS动态加载以及JavaScript void(0)的爬虫解决方案
Intro对于使用JS动态加载, 或者将下一页地址隐藏为JavaScript void(0)的网站, 如何爬取我们要的信息呢?本文以Chrome浏览器为工具, 36Kr为示例网站, 使用 Json Handle 作为辅助信息解析工具, 演示如何抓取此类网站.DetailStep 1. 按下 F12 或右键检查进入开发者工具Step 2. 选中Network一栏, 筛选XHR...原创 2018-07-04 21:08:00 · 4429 阅读 · 0 评论 -
爬虫数据存储--基于MonogoDB
"当然, 并不是所有数据都适合"在学习爬虫的过程中, 遇到过不少坑.今天这个坑可能以后你也会遇到, 随着爬取数据量的增加, 以及爬取的网站数据字段的变化, 以往在爬虫入门时使用的方法局限性可能会骤增.怎么个骤增法?Intro 引例在爬虫入门的时候, 我们爬取豆瓣电影Top250这些数据量并不是很大的网页时(仅计算文本数据量), 通常无需考虑数据存储的效率问题, 使用MySQ...原创 2018-04-09 22:39:00 · 495 阅读 · 0 评论 -
为你的爬虫添加 IP 池反反爬策略
目录开始之前常见的反爬和反反爬策略基于 Headers 和 UserAgent 的反爬基于用户行为的反爬隐藏真实地址的动态网页反爬IP 池突破反爬策略最近发现自己之前爬的某个网站更换了新的网页设计,于是重写了爬虫,在测试的时候突然被封了 IP,虽然说一般网站都不是永久封 IP,但是等不了的我还是尝试用 IP 池来突破该网站的反爬。而就在我测试爬下来的 IP 能不能使用的时候,某提供 IP 池...原创 2019-03-22 09:59:22 · 839 阅读 · 0 评论