![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
I_LOVER
能打倒自己的唯有自己
展开
-
selenium 爬取ajax动态网页
公司用了一个投票网站调查了一些用户的相关信息,但是天呐个撸的调查信息中的 接受调查者的 地址信息居然不能 下载,没有办法只能爬虫了 分析发现这是一个ajax动态网页,通过各种抓包,各种分析网页结构就是不能发现这个post提交的参数出现规律 没有办法,只能通过 selenium模拟人工进行操作了,代码如下:import jsonimport osimport re...原创 2019-01-18 17:10:20 · 1153 阅读 · 0 评论 -
python实现自动化报表2
自动化一个报表,用到的知识点和上一篇的知识点是一样的,但是有一个点需要注意:注意点:我们的自动化报表是先从公司网站上将数据下载下来之后,填充到excel(报表模板)中相应的sheet之中,然后运用excel的公式自动化处理数据并呈现成图,实现报表的自动化,但是有一点需要注意,将从网站爬取得数据(DataFrame)插入excel的某个sheet的过程中,excel模板中的将数据呈现为图的一块...原创 2019-03-03 00:14:56 · 1680 阅读 · 0 评论 -
python实现自动化报表1
公司每天需要做一个报表,其中步骤也很简单,就是从网上上下载三个不同的表,然后分别将三个表中的数据塞到一个单独的表中,用这个单独表中写好的公式将这三张表的数据进行处理之后就是我想要的结果,熟练之后整个过程只需要5分钟,但是既然学了python,就想着用python实现以下:实现了之后用代码也是5分钟,但是这个期间自己可以去干点其他的事情,啦啦啦~~~整个过程的需要的知识点实际上也是十分简单,...原创 2019-02-26 21:44:14 · 4888 阅读 · 0 评论 -
Python(selenium)爬取拉勾网招聘信息并可视化分析-附代码
我的工作和数据分析相关,刚好最近也接触点爬虫,也想看看招聘网站的数据分析的要求是什么,就用爬虫爬下来分析分析接触爬虫不多,什么代理池,cookie池还没有接触过,这个以后肯定要了解。 1、分析页面先分析下拉钩的页面,是通过ajax方式动态显示的,提交的参数是页数,通过post方式进行提交,代码验证最后返回来的是:{'success': False, 'msg': '...原创 2019-03-19 22:35:12 · 4191 阅读 · 10 评论 -
初涉协程asyncio爬虫
我最近需要爬取93个表格进行分析,因为表格较多,所以想着用异步的方法速度可能会很快,所以尝试了一下异步爬虫,最后发现这个速度和单进程爬虫时间差不多~因为我的每个表格都很小而且基本不会阻塞~异步还是很有用以后接着学习哈~先放协程的代码:import asyncioimport jsonimport osimport timeimport chardetimport panda...原创 2019-03-27 23:32:18 · 211 阅读 · 0 评论