baseShellMan-CSDN博客

原创 Python爬虫入门之Urllib库的高级用法 (四)

1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers 的属性。首先，打开我们的浏览器，调试浏览器F12，我用的是Chrome，打开网络监听，示意如下，比如知乎，点登录之后，我们会发现登陆之后界面都变化了，出现一个新的界面，实质上这个页面包含了许许多多的内容，这些内容也不

2017-04-28 15:04:11 410

原创 Python爬虫入门之Urllib库的基本使用 (三)

那么接下来，小伙伴们就一起和我真正迈向我们的爬虫之路吧。 1.分分钟扒一个网页下来怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的，下面

2017-04-28 15:01:19 554

原创 Python爬虫入门 (二)

1.什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说触手可及，分分钟爬下来不是事儿。

2017-04-28 14:39:15 372

原创 Python爬虫入门 (一)

Python版本:2.7 首先爬虫是什么？网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。根据我的经验，要学习Python爬虫，我们要学习的共有以下几点： Python基础知识Python中urllib和urllib2库的用法Python正则表达式Python爬虫框架

2017-04-28 14:36:10 931

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人