![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络爬虫
文章平均质量分 67
WangGangdan
这个作者很懒,什么都没留下…
展开
-
python爬取中国最好大学排名(实例)
要求爬取2018年最好大学网上排名前20的学校,以表格形式输出,包括(排名,学校名称,总分)代码根据基本要求可以编写出初始代码A#CrawUnivRankingA.pyimport requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: r=req...原创 2018-07-16 16:46:14 · 8355 阅读 · 5 评论 -
python之正则表达式(复杂篇)
前言继上篇文章说了正则表达式的基础用法,那今天我们就继续说一下正则表达式的复杂的用法。好了,废话不多说,直接进入正题。正文情景:当你想要匹配一个qq号,qq号码长度为5-10位,那根据上篇文章的说法,很容易就可以想到该正则:[0-9]{5,10}这样是可以的,但是当你匹配一个长度大于10的号码时就会出错,这时就会去该字符串的前10个数字出来,如下:import ...原创 2018-08-22 23:06:18 · 2027 阅读 · 0 评论 -
python之正则表达式(基础篇)
前言在向网页进行了提交请求之类的之后,我们可以得到了网页的返回内容,里面自然而然会有我们想要的数据,但是html元素文本这么多,我们不可能一 一去找我们需要的数据,这时就需要用到正则表达式了,正则表达式是学爬虫必须学的内容,而且不止python可以用,java等其他语言都可以用,所以学了好处大大。正文什么是正则表达式?正则表达式就是一个特殊的字符序列,可以用于检测一个字符串...原创 2018-08-22 22:12:44 · 904 阅读 · 0 评论 -
Python之requests库的基本使用(填坑)
前言在使用了urllib库之后,感觉很麻烦,比如获取个cookie都需要分几步,代码又多,又繁,那有没有更加容易点的请求库呢?答案是有的,那就是第三方库requests,这个库的作者是大名鼎鼎的kennethreitz,创作这个库的原因就是想让python开发者更加容易地发起请求,处理请求。里面还有个名字:HTTP for Humans,顾名思义,就是用来请求http的。想看源代码的可以在gi...原创 2018-08-19 00:50:17 · 2257 阅读 · 0 评论 -
Python之urlib库的基本使用(填坑)
以下为个人在学习Python过程中做的笔记总结之爬虫常用库urllib前言urlib库为python3的HTTP内置请求库urilib的四个模块:urllib.request:用于获取网页的响应内容urllib.error:异常处理模块,用于处理异常的模块urllib.parse:用于解析urlurllib.robotparse:用于解析robots.txt,主要用于看哪些...原创 2018-08-18 17:43:49 · 4500 阅读 · 0 评论 -
python网络爬虫实例:Requests+正则表达式爬取猫眼电影TOP100榜
一、前言最近在看崔庆才先生编写的《Python3网络爬虫开发实战》这本书,学习了requests库和正则表达式,爬取猫眼电影top100榜单是这本书的第一个实例,主要目的是要掌握requests库和正则表达式在实际案例中的使用。二、开发环境运行平台: Windows 10 Python版本: Python3.6 IDE: PyCharm三、爬取思路抓取单页内容正则表达...原创 2018-08-07 14:03:11 · 3730 阅读 · 1 评论 -
python网络爬虫:股票数据定向爬取
百度股票(https://gupiao.baidu.com/stock/)属于静态网页数据,适合定向数据爬取;新浪股票(http://finance.sina.com.cn/stock/)数据存取在js文件中,属于动态数据,不适合定向爬取,所以选择百度股票(https://gupiao.baidu.com/stock/)作为爬取对象。PS:Robots协议没有禁止网络爬虫步骤说明步骤1: ...原创 2018-07-21 00:32:03 · 5106 阅读 · 2 评论 -
Window 下安装Redis Desktop出现电脑缺少MSVCP140.dll等,解决方法
前言最近在看崔庆才先生写的《python3网络爬虫开发实战》中Redis和Redis Desktop环境配置中遇到了点小麻烦,将解决方法分享给大家,或许能帮到遇到同样问题的同学安装过程一、安装Redis首先找到Redis的安装地址https://github.com/MSOpenTech/redis/releases。然后点进去找到.msi文件下载安装安装过程很简单不详...原创 2018-07-25 22:05:35 · 5734 阅读 · 5 评论 -
python网络爬虫五个小实例
实例一爬取京东商品信息import requestsurl="https://item.jd.com/6946605.html"try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[:1000])except: pri...原创 2018-07-19 18:22:05 · 25014 阅读 · 9 评论 -
python淘宝商品比价定向爬虫
要求(目标)利用requests、re库爬取 淘宝商品搜索“机械键盘”页面前两页,将商品价格、商品名称按顺序表格形式输出实现代码#CorwTaoBaoPrice.pyimport requestsimport re#获取页面函数def getHTMLText(url): try: r=requests.get(url,timeout=30) ...原创 2018-07-18 23:49:46 · 4303 阅读 · 7 评论 -
Python 爬虫复习之爬取笔趣阁小说网站(不用正则)
前言小说网站-笔趣阁:URL:https://www.qu.la/笔趣阁是一个盗版小说网站,这里有很多起点中文网的小说,该网站小说的更新速度稍滞后于起点中文网正版小说的更新速度。并且该网站只支持在线浏览,不支持小说打包下载。因此,本次实战就是从该网站爬取并保存一本名为《终极斗罗》的小说,该小说是唐家三少正在连载中的一部玄幻小说。PS:本实例仅为交流学习,支持唐三大大,请上起点中文网订阅。...原创 2019-02-28 18:15:43 · 6030 阅读 · 5 评论