![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
瞧德
你好
展开
-
Python爬虫:全国大学招生信息(二):生源数据分析(matplotlib)
在上一篇博客(https://blog.csdn.net/qq_39192827/article/details/87136836)中爬取了6W+条json数据,接下来通过2D可视化来分析这些数据。需要使用的是matplotlib模块。之前我们获取了一个大学名字对应url的txt,通过大学名字去6w条数据中检索同一学校的各地区招生数进行统计先随便拿一条数据观察一下data列表是我们...原创 2019-02-14 03:44:50 · 2713 阅读 · 0 评论 -
Python爬虫:全国大学招生信息(一):爬取数据 (多进程、多线程、代理)
无聊爬爬,仅供学习,无其他用途这几天在高考派(http://www.gaokaopai.com/)上爬招生信息,其中也绕了不少弯路也学到了许多。以下为涉及到的模块import requestsfrom fake_useragent import UserAgentfrom multiprocessing import Processimport urllib.request...原创 2019-02-13 03:34:39 · 7148 阅读 · 3 评论 -
Python:第六次全国人口普查数据分析及可视化(pandas、matplotlib)
一、数据获取在国家统计局网中下载第六次人口普通统计表:http://www.stats.gov.cn/tjsj/pcsj/rkpc/6rp/indexch.htm然后通过pandas将excel数据解析为多级字典先观察excel数据可以转化为这样的多级词典:理清字典关系后代码就简单了def getDataDict(): #skiprows指跳过的行下...原创 2019-02-22 18:18:11 · 19966 阅读 · 11 评论 -
Python爬虫:多线程下载图片
目标:下载豆瓣热门电影封面,网址:https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0思路:分析请求数据获取全部热门电影相关信息,通过url进入每一个具体页面获取图片url并使用多线程下载一、分...原创 2019-02-11 02:47:20 · 1177 阅读 · 0 评论 -
Python爬虫:爬取免费代理ip
之前写的几个爬虫都只能爬取到少量的信息,这是由于一个ip频繁地访问网站,会被认定为非正常的爬虫从而被屏蔽,这时候就需要使用代理ip来访问网站了,具体方法就是在发送request时添加一个proxy参数。代理ip有收费的也有免费的,免费的通常不太稳定,或者根本无法使用。我们的目标是在https://www.xicidaili.com/nn/页面爬取免费代理ip,然后验证代理ip可否使用,最后把相关信...原创 2019-02-07 06:58:34 · 3603 阅读 · 0 评论 -
Python爬虫:爬取京东商品评论(处理json) urllib3+bs4+sqlite3
通过观察京东商品页面返回的评论数据是 JSON 格式的,所以抓取指定评论需要使用 JSON 模块中相应的 API 进行分析,而从搜索页面抓取的商品列表需要分析 HTML 代码,所以使用 bs4。在对数据进行分析整理后,需要将数据保存到 sqlite 数据库中,其他模块还包括 os 和 fake_useragent(获取假的消息头,之前用一个消息头好像被封了,带秀)。from urllib3 ...原创 2019-02-02 04:36:35 · 2378 阅读 · 1 评论 -
Python爬虫:简易的爬取斗鱼弹幕
斗鱼弹幕服务器第三方接入协议v1.4.1首先看一下协议的内容斗鱼后台协议头设计: 请求一共分为三个部分:长度,头部,数据部分别按照文档的要求构造就行,需要注意的是,获取和返回的类型是都是 Bytesdef send_request_msg(msgstr): msg = msgstr.encode('utf-8') # 协议规定所有协议内容均为 UTF-8...原创 2019-01-26 16:57:13 · 2630 阅读 · 3 评论