爬虫
牧羊人sss
python
展开
-
Python面试题
语言特性 Python语言与其它语言的区别。 Python语法简洁易懂,拥有强大的第三方库,适用范围广,且Python是解释型语言,运行时一行行解释并运行调试代码方便,开发效率高。 编译型语言和解释型语言的区别。 编译型语言:写好的程序可直接运行。执行速度快效率高,依赖编译器,跨平台性差。 解释型语言:把写好的代码翻译成机器语言再运行。执行速度慢,效率低,依赖解释器,跨平台型好。 通俗的讲...原创 2019-12-17 16:15:20 · 754 阅读 · 0 评论 -
使用代理池爬取中国公路物流数据
分析: 1.通过chrome浏览器F12找到其ajax接口 2.通过post方法发送请求获取json格式数据 3.构造简单的代理池进行爬取 1.代理池:会便览西刺代理网页,然后测试每一个代理查看是否能够成功访问目标网页,如果成功则保存人D盘文本文件。 缺陷:代理池中的代理未必都可用,因为有些代理是测试的时候可用但之后不可用,有些代理是刚开始不可用后来可用。 import requests from...原创 2019-11-29 10:15:18 · 610 阅读 · 0 评论 -
scrapy爬取中国永康五金
分析: 中国永康五金是使用ajax请求来获取数据,需要在spiders中进行构造请求并爬取数据,在pipeline中对数据进行预处理。 爬虫结构如下: 1.spiders:构造请求并爬取数据 import scrapy from myproject.items import YongkangItem class YkindexSpider(scrapy.Spider): name = ...原创 2019-11-05 13:21:12 · 192 阅读 · 0 评论 -
抓取大西洋地区平均租船价格
分析: 此网页需要模拟登录进而获取cookies,获取分页是使用post方法,因此需要先chrome抓包,取得post参数进行构造data,最后还需要配置正则来匹配符合条件的标题,在下载文件的过程中,我使用了新学的queue模块和threading模块来进行多线程下载。 1.模拟登录获取cookies import requests import re from selenium import w...原创 2019-11-05 12:10:37 · 203 阅读 · 0 评论 -
获取湖南邮政行业运行情况
获取湖南邮政行业运行情况 要点: 1.使用 生成器 yield 减少内存消耗; 2.使用正则匹配关键字提取符合规则的文件标题; import requests from lxml import etree import re import csv urls=['http://hn.spb.gov.cn/xytj/index_4.html', 'http://hn.spb.gov.cn/xytj/...原创 2019-10-18 17:01:39 · 148 阅读 · 0 评论 -
识别验证码模拟登录微博
最近学习爬虫,想要自动登录新浪微博,但是被验证码那关难住了,最后受崔庆才老师的启发,使用网上验证码破解平台超级鹰来破解微博的密码。 1.模拟登录: 首先登录微博:https://passport.weibo.cn/signin/login 我们这里使用selenium进行模拟登录 from selenium import webdriver from selenium.webdriver.sup...原创 2019-09-07 17:05:31 · 2909 阅读 · 0 评论 -
记载下载土地网数据
前言 最近由于工作需要下载中国土地网的数据,本以为是个很简单的小网站用requests库就可以轻松解决,结果这个网站到处都是坑,最后无奈之下只能采用selenium来进行爬取,虽说有点大材小用,但毕竟是解决了问题。 数据源分析 首先要是数据源网址:https://www.landchina.com/default.aspx?tabid=262&ComName=default 打开后界面是这...原创 2019-08-20 23:08:31 · 352 阅读 · 0 评论