轻量级爬虫
文章平均质量分 79
一些爬虫的使用的案例
猿胖子
不创造技术,只是技术的搬运工
展开
-
中国天气的各个城市的id,整理成json文件记录
{ "ids": [{"北京":"101010100", "海淀":"101010200", "朝阳":"101010300", "顺义":"101010400", "怀柔":"101010500", "通州":"101010600", "昌平":"101010700", "延庆":"101010800", "丰台":"101010900", "石景山":"101011000", "大兴":"101011原创 2020-12-27 22:30:52 · 1478 阅读 · 1 评论 -
爬虫学习笔记,从基础到部署。
爬虫基础知识:笔记中出现的代码已经全部放到了github上https://github.com/liangxs0/python_spider_save.git1.http基本原理http:协议。在HTTP之上添加了安全协议的叫https ssl域名:URL–>URI包含URL的。2.web页面的构成:html(骨架),CSS(皮肤),js(肌肉)name、status、type、size、time3.请求方法get和post区别:get有一个http的限制,url的长度不能超过1原创 2020-10-27 16:00:57 · 2072 阅读 · 3 评论 -
用爬虫,看疫情。武汉加油,中国加油!!
从知乎上获取了部分大家对疫情的评论,数据说话,种花家,众志成城。加油。原创 2020-01-30 10:07:08 · 1648 阅读 · 0 评论 -
python的ip代理池
爬取代理然后验证代理,将可用代理放入txt文件。辣鸡编码,大佬们轻喷,有问题留言。。。。。。。谢谢。结果如图import requestsfrom scrapy import Selectorstart_url = 'http://www.89ip.cn/index_1.html'url = 'http://www.89ip.cn/index_{}.html'headers =...原创 2019-12-02 11:14:15 · 955 阅读 · 0 评论 -
python抓取招聘信息
selenium应用中的坑selenium库的使用能够很好的让你绕过反爬机制,应为程序在运行的过程中完全符合浏览器的行为,既然是完全符合历览器的行为那么也就不会被轻易的挡在外面,但是在应用过程中还是存在问题的。 spider在获取数据的时候,就是它能看到的,然后是你指定的数据,只要程序员爸爸给了合适的定位操作,spider就能通过定位拿到数据,但是前端的大佬们,往往在写页面的时候,有时候标签...原创 2019-02-14 15:47:10 · 837 阅读 · 1 评论 -
python selenium
python selenium这个模块玩儿爬虫的都知道,因为这个可以完全模拟人为的对浏览器的操作,在一些反爬虫做的很完善的站点的时候,大家选取这个模块,可以说是百试不爽。很多浏览器都支持自动操作,我一般用chrome。模块获取元素和定位按钮的方法有很多,这个大家可以具体官方文档。这里只是想踩一下Web页面的渲染问题,也就是,我们在使用selenium定位元素时,如果页面没有把你需要的需要...原创 2018-12-04 20:41:00 · 1036 阅读 · 0 评论 -
python爬取手机app数据.
前言现在很多的数据都来自移动端的app,很多的数据获取经过处理之后也是十分有用的,这次就爬取最近比较热的王者荣耀中的英雄们的图片,下载到本地。技术准备环境:windows/linux语言:python版本:3.7模块/框架:scrapy,os流程:1.使用抓包工具Fidder对手机app进行数据的抓取,至于说Fidder如何配置和使用,网上有一大把的资料大家供大家可...原创 2018-11-12 11:05:25 · 8056 阅读 · 1 评论 -
python3.6。爬虫学习入门笔记
爬虫前提知识:URLHTTP协议web前端,html css jsajaxre,XpathXML爬虫的定义百度上详细的介绍三大步骤:下载信息提取正确的信息根据一定的规则自定跳到另外的网页上执行的两步内容爬虫分类通用爬虫专用爬虫pyhon网络包简介2.X ----3.x----urllib,urllib3,httplib2,reques...原创 2018-10-17 14:20:42 · 992 阅读 · 0 评论
分享