python爬虫
文章平均质量分 62
cacho_37967865
这个作者很懒,什么都没留下…
展开
-
【Python爬虫】微信公众号历史文章和文章评论API分析
上一篇文章爬取微信公众号文章信息准备工作介绍了微信公众号历史文章和文章评论API的组成情况,历史文章API格式:https://mp.weixin.qq.com/mp/profile_ext?action=getmsg&__biz=MjM5NjAxOTU4MA==&f=json&offset=10&count=10&is_ok=1&scene=126...原创 2018-12-08 21:07:40 · 3903 阅读 · 1 评论 -
【Python爬虫】爬取微信公众号文章信息准备工作
有一天发现我关注了好多微信公众号,那时就想有没有什么办法能够将微信公众号的文章弄下来,而且还想将一些文章的精彩评论一起搞下来。参考了一些文章,通过几天的研究基本上实现了自己的要求,现在记录一下自己的一些心得。整个研究过程如下:1.了解微信公众号文章链接的组成,历史文章API组成,单个文章评论API组成,访问微信公众号的cookie组成;2.分析历史文章API以及单个文章评论API的结构,构...原创 2018-12-07 17:14:02 · 4584 阅读 · 0 评论 -
【Python爬虫】使用urllib.request下载已知链接的网络资源
如果有这样一个场景,我们的EXCEL某一列记录了好多(图片、视频、音频)链接A,另外一列记录了链接名称B,现在我们想要自动下载这些链接的文件,我们应该怎样处理?1.循环去excel取值,将A和B存入到一个二维列表中2.根据链接后缀不同情况(.jpg,.mp4,mp3等)用urllib.request去下载内容具体代码如下:'''''''''''''''''''''''''''''''...原创 2018-11-24 22:30:58 · 1652 阅读 · 0 评论 -
【Python爬虫】下载微信公众号图片
大家用爬虫下载图片时肯定遇到过https://demo?wx_fmt=jpeg链接的图片,常见的就是微信公众号的图片。遇到链接图片用普通的方式是无法爬取下来的,我们可以用urllib.request进行简单爬取,具体源码如下:原创 2018-10-07 14:26:59 · 3242 阅读 · 1 评论 -
【Python爬虫】Windows环境下wxpy不需每次登陆重新扫描
有时候我们想每天向你女朋友或者某人发送一条信息(通过线程控制或者每天自动任务);此外我们可以通过更改wxpy中Bot()中参数,保存缓存不用每次都扫描二维码。以下代码来源于:http://www.cnblogs.com/botoo/p/8622379.htmlfrom __future__ import unicode_literalsfrom threading import Tim...原创 2018-08-18 23:05:34 · 6253 阅读 · 3 评论 -
【Python爬虫】爬虫程序的简单处理过程
一月份的时候有写过一篇文章,是关于如何解析网站,然后将图片下载下来,爬虫爬取美女图片存入到动态的文件夹中今天主要总结的是爬虫的一个基本思路,主要有:1.获取一个网页get_one_page()我们知道一个网页可能由多个参数构成,我们可以传参进去。2.分析一个网页,获取有用的信息parse_one_page()或者获取图片下载save_one_image()我们可以通过正则表达式或者...原创 2018-05-18 22:59:05 · 435 阅读 · 0 评论 -
【Python爬虫】Python3+selenium环境配置
在我们爬虫爬网过程中,我们需要用到Python3+selenium,Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作。对于一些JavaScript渲染的页面来说,这种抓取方式非常有效。文章参考了博主崔庆才的文章:https://cuiqingcai.com/5052.html,在此表示感谢! Selenium的安装1.相关链接官方网...原创 2018-02-21 18:33:18 · 458 阅读 · 0 评论 -
【Python爬虫】BeautifulSoup4 库的一些用法
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。安装 Beautiful Soup如果你安装了python3,可以在windows的命令行CMD运行下面命令pip3 install Beau...原创 2018-02-04 22:16:47 · 1086 阅读 · 1 评论 -
【Python爬虫】知识点简单总结
上篇文章我们通过一个实际的例子,讲述了一下如何爬取网站图片并下载下来,博客:http://blog.csdn.net/sinat_37967865/article/details/79120145在那个例子中,我们用到了一些库和方法,总结一下:1. 在cmd中,通过pip3的方式安装库2. BeautifulSoup4 库3. requests 库4. lxml 库5. 获取源...原创 2018-01-21 15:30:31 · 805 阅读 · 0 评论 -
【Python爬虫】requests与urllib库的区别
我们在使用python爬虫时,需要模拟发起网络请求,主要用到的库有requests库和python内置的urllib库,一般建议使用requests,它是对urllib的再次封装,它们使用的主要区别:requests可以直接构建常用的get和post请求并发起,urllib一般要先构建get或者post请求,然后再发起请求。import requestsResponse_get = r...原创 2018-12-30 16:14:50 · 17971 阅读 · 2 评论