网络爬虫进阶之路
文章平均质量分 64
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
小猪的互联网江湖
擅长语言:Java,Kotlin,Python
擅长领域:Android,Web后端
展开
-
爬虫入门-03-12306官网登录详解
爬虫入门-12306官网登录详解一,首先我们要先通过浏览器抓包的方式搞清楚登录的流程,url,参数等登陆=请求 POST请求 - 请求url(str) - 请求方式(str) - 参数(str,bytes)验证码校验 - https://kyfw.12306.cn/passport/captcha/captcha-check - POST - 参数:answer:52,36,117,68原创 2017-11-11 10:32:09 · 1422 阅读 · 0 评论 -
爬虫入门-02-爬虫模块介绍
爬虫入门-爬虫模块介绍Python的urllib和urllib2模块都做与请求URL相关的操作,但他们提供不同的功能。 他们两个最显着的差异如下: - urllib2可以接受一个Request对象,并以此可以来设置一个URL的headers,但是urllib只接收一个URL。 这意味着,你不可以通过urllib模块伪装你的User Agent字符串等(伪装浏览器)。 - urllib2模原创 2017-11-10 09:49:03 · 740 阅读 · 0 评论 -
爬虫入门-01-爬虫基础了解
1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一只蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。 比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。2.浏览网页的过原创 2017-11-09 09:19:19 · 559 阅读 · 0 评论