爬虫
文章平均质量分 56
清风醉雨
莫忘少年凌云志,曾许天下第一流。
展开
-
基于Python的微信朋友圈数据可视化分析之个性签名
需求利用 Python 爬取微信朋友圈的个性签名,通过生成词云的方式对朋友圈的关键词进行可视化的分析。思路经过调研发现,通过 itchat 这个第三方的包,再结合人工扫码授权的方式可以直接调用微信的接口,从而获取到朋友圈的所有信息。依赖包直接在 Python 环境下运行源代码,提示缺啥就补啥呗安装包的命令pip install 包名itchat 中微信好友信息常见字段分析通过 itchat 获取到的微信好友信息的格式是 dict 字典格式,其中的含义在官方文档中也没有详细地说明,此原创 2021-09-22 23:19:47 · 493 阅读 · 0 评论 -
初识selenium
##selenium是什么selenium模块可以让 Python 直接控制浏览器,可以实际点击链接,填写登录信息等等,几乎就像是真正的用户在操作一样。支持的浏览器包括 IE, Firefox, Chrome, Safari, Opera等。selenium的缺点就是要启动web浏览器,这样会使得爬取的速度变慢,并且难以在后台运行。##安装本机环境Python 3.6windows安装selenium在cmd中输入 python -m pip install selenium安装驱动文件原创 2021-09-16 12:54:02 · 128 阅读 · 0 评论 -
利用scrapy爬取豆瓣top250
##前言(目的)本文为scrapy爬虫的入门文章,作者尽量将自己刚开始学习所遇到的问题都还原出来,过程尽量写得详细详细再详细。希望通过这篇文章来记录自己刚开始学习爬虫所踩过的一些坑,同时记录下自己处理和解决问题的思路,便于和大家分享交流,同时也希望读者能仅仅只通过这一篇文章,就搭建出一个 demo 可以立马上手跑起来。在本篇文章中,作者先简单的介绍了爬虫的基本概念和 scrapy 爬虫框架,接着以豆瓣电影TOP250为例,详细讲述 scrapy 的实际运用。由于作者水平有限,若有错误或不恰当之处,还望不原创 2021-09-15 09:32:34 · 10415 阅读 · 8 评论 -
scrapy如何顺序执行多个爬虫
scrapy如何单线程顺序执行多个爬虫,刚开始我天真的以为将多个excute顺序罗列就能依次执行每个爬虫了,代码如下所示:from scrapy.cmdline import executeexecute("scrapy crawl huanqiu_finance".split()) # 环球网execute("scrapy crawl ztcj".split()) # 智通财经网execute("scrapy crawl p5w".split()) # 全景网execute("scrap原创 2021-09-14 10:43:56 · 1163 阅读 · 2 评论 -
用request实现文件的下载
网上给的很多例子都是爬取图片并下载图片,我主要讲述一下如何利用request下载网站中的附件,以PDF文件为例进行讲解。我的环境如下:Python 3.6.0 |Anaconda custom (32-bit)| (default, Dec 23 2016, 12:06:52) [MSC v.1900 32 bit (Intel)] on win32例如:下载下面链接的一个PDF文件。http://xinpi.cs.com.cn/new/file/bulletin/2017/7/11/12036原创 2021-09-14 09:33:56 · 1995 阅读 · 0 评论 -
【转】Urllib.request用法简单介绍(Python3.3)
本文转载自 http://blog.csdn.net/lincifer/article/details/27374313urllib是Python标准库的一部分,包含urllib.request,urllib.error,urllib.parse,urllib.robotparser四个子模块,这里主要介绍urllib.request的一些简单用法. 首先是urlopen函数,用于打开一个URL:转载 2017-11-06 21:57:53 · 684 阅读 · 0 评论